ニュース

kakao brain、韓国最大規模のデータセット外部公開

アイキャッチ
目次

 kakao brain、韓国最大規模のデータセット外部公開

 kakao brain(カカオブレイン)が約7億4千万個のイメージテキストで構成されたデータセット「Coyo(コヨ)」を公開する。超巨大AI開発の基盤であり、企業の核心資産であるデータセットを外部に公開することは非常に異例である。

データセットは超巨大AIモデルが精巧な結果値を具現するのに必要な核心要素の1つだ。高い性能のために多くの企業が手作業でイメージテキスト対を合わせてデータセットを収集するが、この時に高い費用と多くの時間が投入される。

 kakao brainは「Coyo」開発時、独自開発した技術でイメージテキストをオンラインで自動収集することで投入されるコストと時間を効果的に減らし、同時に良質のデータを選別して高い性能を実現した。実際に有数のグローバルAI企業で公開した超巨大AIモデル再現を通じてクロス検証を終え、データの品質を確認した。

「Coyo」は kakao brainが先に公開した超巨大AIイメージ生成モデル「RQ-Transformer」とAIアーティスト「Karlo」の開発に適用された。

4月に公開した「RQ-Transformer」は技術の優秀性を総合的に認められ、6月に開かれた世界的学術大会CVPR2022で該当論文の発表機会を得ており、現代美術家コ・サンウ、サムスン電子「ギャラクシーブックアートプロジェクト」との協業を通じてAIアーティスト「Karlo」の活用可能性を立証した経緯がある。

一方、 kakao brainはメキシコの代表画家フリーダ·カーロ(Frida Kahlo)の故郷であるメキシコシティ「コヨーアカン(Coyoacán)」の頭文字を取って今回のデータセットを「Coyo」にした。 

「Karlo」が「Coyo」を基盤に誕生するようになったように「Coyo」を通じて数多くのAIモデルが開発されてほしい kakao brainの抱負が込められている。

 kakao brainは、現在までグローバルに公開されたデータセットの中で最上位級規模の「Coyo」を世界最大水準に拡大するという目標の下、韓国語をはじめとする多様な言語で開発していく計画だ。また、来年上半期の中で「Coyo」データセットを活用した超巨大AIモデルを追加公開する予定だ。

 kakao brainのキム・イルドゥ代表は「今回のデータセット公開は超巨大AI技術開発に拍車をかける重要な根幹でありマイルストーンになるだろう」とし、「今後も kakao brainは多方面で技術リーダーシップをリードし、AIコミュニティと協力してAIエコシステムの発展に資するだろう」と述べた。


原文:https://platum.kr/archives/191949

/media/Platum
記事を書いた人
Platum

Platum is a media service that specializes in startups, and its motto is "Startup's story platform".