ニュース

韓国AI企業、自社開発したAI技術「オープンAPI」として提供へ

アイキャッチ
目次

人工知能企業、自社開発したAI技術「オープンAPI」として提供へ

韓国のAI企業が自社開発した最新のAI技術を、誰でも活用できるようオープンAPI(アプリケーションプログラムインターフェース)として公開し、産業全般の活性化やサービスの高度化をリードしており、注目を集めている。

膨大な量の韓国語音声データを基盤に、レベルの高いAI音声認識文字変換技術を提供するreturnzero(リターンゼロ)の「VITO Speech(ビートスピーチ)」から、AIが嫌悪表現を自動検出して倫理性を判別するTUNiB(チューニブ)のAPI、企業およびブランドが望む仮想人間(バーチャルヒューマン)制作を手軽に助けるFliptionのサービス、入力したテキストに合った画像を出力してくれるKAKAO BRAIN(カカオブレイン)のAIモデル「RQ-Transformer」まで、自社の独歩的な人工知能技術をオープンAPI形態で提供中だ。


returnzero、独自開発した音声認識文字変換技術をオープンAPIで公開

韓国を代表するAIスタートアップ「returnzero」は、自社の音声認識文字変換(STT)技術をオープンAPIとして提供し、韓国のAI音声認識産業の活性化に寄与している。

returnzeroは、AI電話アプリ「VITO(ビート)」を運営し、確保した膨大な量の音声データに基づいてレベルの高い音声認識モデルを構築し、誰でも音声認識文字変換技術を活用できるよう「VITO Speech(ビートスピーチ)」サービスを公開した。VITOの開発者ウェブサイト(VITO Developer)を通じて公開されたVITO Speechは、通話音声をテキストに変えるSTT(Speech To Text)技術ベースの「ソマーズ(Sommers)エンジン」が適用され、月1,000時間まで無料で使用可能だ。

VITOのイノベーション技術であるソマーズエンジンは、韓国語の特性上、正確に認識しにくい口語体や自由発話などに特化し、騒音にさらされた通話環境下でも、迅速かつ正確なテキスト変換技術を見せる。VITO Speechは、別途の学習がなくても高レベルの精度を示し、自動音声ガイド(ARS)認識、悪口、カンツアーフィルタリングなど様々な機能が提供される。

月1,000時間分の音声テキスト変換機能が無料で提供されるため、AI音声認識サービスに関心の高い開発者、研究員などはもちろん、STT技術導入を望む企業、特にCSセンターを保有しているか、営業人数が多い企業の間で有用性が高い。

returnzeroは、VITOの高い音声認識精度を経験した企業顧客の提携要請が相次いでおり、年内、企業顧客専用有料商品もリリースする計画だと明らかにした。


TUNiB、AIが嫌悪表現を自動検出し、倫理性を判別するAPIサービスを公開

自然言語処理技術を開発するAIスタートアップ「TUNiB(チューニブ)」は最近、倫理性判別、非識別化など11のAPIサービスを公開した。

TUNiBが公開したサービスは、自社が開発した自然言語処理(NLP)エンジンベースの韓国語・英語APIサービスだ。別の追加のコーディングや背景知識がなくても、ユーザーが望む単語や文章を入力すると、AIが自動的に認識し、適切な結果を提供する。

TUNiBのAPIの中で、最も注目されているのは「倫理性判別(Safety Check)」APIで、ユーザーがテキストを入力すると、TUNiBのディープラーニングモデルが文脈を分析し、嫌悪表現を自動検出する。

侮辱、悪口、暴力、脅威、犯罪助長など11項目に分類された嫌悪表現の深刻性を、注意、明白、深刻などの3段階に分け、きれいな表現に置き換えて結果を示す。オンライン環境で深刻性が台頭しているAI倫理およびインターネット嫌悪問題を解決するため、多様な活用が可能だ。


Fliption、企業、ブランドのバーチャルヒューマン制作を支援するAIソフトウェアソリューションを提供

バーチャルヒューマン専門AI企業「Fliption(フリップション)」は「B2B AIバーチャルヒューマンソフトウェアサービス」を提供中だ。API形式で公開された該当サービスを利用すれば、企業やブランドが望むイメージのバーチャルヒューマンを直接開発することができる。

Fliptionは、既存のFace Swap(フェイススワップ)技術によるAI学習のための長時間所要および自然な変換のため、大量のデータが必要な点などの限界を補完し、AIモデルを独自に開発した。1枚の写真だけでも、希望の仮想フェイスに変換できる技術力を備えており、短時間でフェイススワップが可能であるだけでなく、顔の正面、側面および上下端まで自然な合成が可能なのが特徴だ。

今年8月、シード投資を誘致したFliptionは、バーチャルヒューマンが幅広く活用できるよう、仮想フェイス合成技術の高度化とバーチャルヒューマン製作ソフトウェア配布のため、能力強化に乗り出すという計画だ。


Kakao BRAIN、入力したテキストに合う画像を出力する「RQ-Transformer」オープンソースで公開

Kakao(カカオ)のAI子会社Kakao BRAIN(カカオブレイン)は、イメージ生成AIモデルである「RQ-Transformer(アールキュートランスフォーマー)」を、オープンソースコミュニティ「GitHub(ギットハブ)」に公開中だ。

テキストを入力すると、それに合った画像を出力するRQ-Transformerは、39億個のパラメータで構成され、3,000万ペアのテキストや画像を学習した「テキスト・ツー・イメージ(text-to-image)」AIモデルだ。

RQ-Transformerは、minDALL-E(ミンダルイー)のアップグレード版で、昨年12月に公開した超巨大AIマルチモダールのminDALL-Eの場合、米国の人工知能開発企業「OpenAI」が公開した「DALL-E」を再現するものに近かったのに対し、RQ-Transformerの場合、KAKAO BRAINならではの独自の技術で開発された。

RQ-Transformerは、公開された画像生成モデルのうち、韓国最大サイズの画像生成モデルであり、これを公共目的のために公開したという点でAIコミュニティに貢献が大きいと期待される。

3次元のコードマップで表現された画像を順次予測して生成するように学習されたRQ-Transformerは、従来技術に比べ、画像圧縮による損失が少なく、高品質の画像を低解像度のコードマップで表現してくれるというのが特長だ。これにより、従来の画像生成モデルよりも少ない計算コストと、高い画像生成速度と画質を大幅に向上させた。


原文:https://platum.kr/archives/192982

/media/Platum
記事を書いた人
Platum

Platum is a media service that specializes in startups, and its motto is "Startup's story platform".

  • ホーム
  • ニュース
  • 韓国AI企業、自社開発したAI技術「オープンAPI」として提供へ