企画記事

【returnzeroのイ・チャムソル】「1000万時間の音声データセット」を持つスタートアップ

アイキャッチ
目次

【returnzeroのイ・チャムソル】「1000万時間の音声データセット」を持つスタートアップ 

[イム・サンウクのピック]3回目です。主にB2BやSaaSに投資するXenon Partners(ゼノンパートナーズ) イム・サンウク アジア総括パートナーに「凄く小さな会社でもいい。あなたが今最も興味を持っているスタートアップを挙げてください」とお願いした際、1つ目がRelate(リレイト)、2つ目がSmore(スモア(旧Dodamind(ドダマインド))、3つ目がreturnzero(リターンゼロ)でした。サンウク氏にピックした理由を聞いて、イ・チャムソル代表に改めてお尋ねします。


イム・サンウクのピックはreturnzero: 

「シリーズBのイ・チャムソル代表のreturnzero(リターンゼロ)です。returnzeroは音声データを扱うAIスタートアップです。個人の電話業務をサポートするvitoサービスで、すでに80万ダウンロードの実績があります。個人的には、音声認識AI自体にはやや懐疑的です。数多くのAI会社が存在しており、ミッションクリティカルな領域では小さな技術差も大きな意味を持つのでしょうが、音声認識のような領域では他社と大きな技術的優位性を持つことには大きな意味もなく、簡単に追い越し追い越されの状況になります。むしろ、どのようなビジネスモデルでアプローチするかが重要ではないでしょうか。

returnzeroが注目されるのは、現在CBT(Closed Beta Test)を行っている新しいサービス「Callabo(コラボ)」があるためです。いわゆる「企業のセールスコールの科学化」がキャッチフレーズです。アメリカの例を挙げると、Chorus.ai(コーラスai、昨年Zoominfoに5億7500万ドルで買収)やGongのような会社が提供する、営業チームのビデオミーティングをテキスト化し、レビューや成果分析などを通じて、これまで極めて定性的な分析しかできなかったセールスコールを定量的に分析することができます。ベータユーザーとして使ってみたところ、非常にクオリティーが高いです。しかも日本進出まで行っています。」

 

[イム・サンウクが選んだ理由]「returnzero方向性が定まっている...Callaboを使ってみたがクオリティーが高い」



Xenon Partners イム・サンウク アジア統括パートナー


-[ちょい事情通の記者]returnzeroは、数多くの音声AIスタートアップとは違うということですよね?

[イム・サンウク]「returnzeroは新しいビジネスモデルを見つけているため、関心を寄せています。ビジネスモデルが何かというと、音声認識AIはたくさんありますよね。非常に多く存在するのですが、皆要領を掴めずにいます。 「何をするつもりですか」と聞くと、APIビジネスの話ばかりするのです。」

「returnzeroはマインドを変えた会社です。Callaboという商品を製作しました。企業では営業などあらゆる分野でビデオ通話のようなミーティングを行いますよね。その内容をすべてテキストにして記録します。セールスコーチングみたいなことができるとか。このようにビジネスモデルを見つけているため、可能性があるのではと思っています。実はアメリカにも同じものがあります。」


-アメリカにreturnzeroのようなビジネスモデルで成功した事例がある?

「はい。Chorus.ai(コーラスAI)など2社がすでにユニコーンになりました。韓国にはなかったものが、生まれたということです。それに日本進出にも興味を持っています。」


-このようにまとめればいいのでしょうか?音声認識AIはたくさんあるが、これを「何に活用するのか」が明確ではなかった。returnzeroははっきり「当社の製品は、会議で使ってください」と方向性を定めている。実際にアメリカではこのようなビジネスモデルでユニコーンになった事例があり、市場性は検証されている。同じようにハングルでサービスしても市場はあるだろう。こういうことですか?

「そうです。韓国語での対応、そしてただのAIエンジン会社ではなく、プロダクトを作ったのです。」


-日本語でもサービスできるんですか?

「リリースしたばかりか、最終準備中でしょう。」


-わかりました。プロダクトがある音声AIなため、何を売るかは明確で、それが売れたら成功ということですね。

「Channel Talk(チャンネルトーク)のような会社では、すでにreturnzeroの製品を使用しています。returnzeroのような韓国語サービスが必要だったということです。ニーズは十分にあったのです。コールセンターなどでも使えます。」


 returnzeroイ・チャムソルのインタビュー、 Callaboは単純な記録ではない。戦略リポートだ。


returnzeroのイ・チャンソル代表(中央)が共同創業者たちと一緒に撮った写真/returnzero


-[ちょい事情通の記者]returnzeroはそれなりに認知度が高いスタートアップです。

[イ・チャムソル]「音声方面のAIを扱っています。韓国語と日本語を先に進めています。AIを研究してサービス化すること、そして企業商品として作って納品すること、この3つの経験があり、それを得意とする会社です。」


-音声でどうやってお金を稼ぐのですか?お金を稼ぐ方法を一つだけ教えてください。

「最近では、人工知能コンタクトセンター(AICC-AI Contact Center)を主力の一つにしています。韓国では新韓銀行と協力しています。日本のAICCにも技術を提供しています。大きな会社には、一日に何千、何万ものお客様からの電話がかかってきますよね。複数の人が分担して音声通話に対応するのですが、中央でこのような膨大な音声通話を管理するのは容易ではありません。returnzeroはこのような音声を、簡単に共有できる形のテキストに変えてくれます。このようなデータからのインサイトの引き出しまで提供します。」


-returnzeroは、実はvito(ビト)というサービスでよく知られていますよね。

「あ、それは少し別のサービスです。業務電話を多く行う方が利用するサービスです。Androidスマホにreturnzeroのアプリをインストールするだけで、音声通話内容をメッセンジャーのように目で見ることができます。もちろん検索も可能です。例えば、仕事で電話をかけるとき、相手と前回話した内容を目で確認しながら通話をすることができます。非常に多くの方が利用しているサービスです。音声録音ができるスマートフォンでなければ使用できません。」


 -iPhoneはダメ?

「Apple(アップル)のiPhoneには対応していません。」


-vitoはかなりダウンロードされています。無料版と有料版がありますよね?

「無料ユーザーの方は広告を見ながら使われています。今年初めから有料サービスとしても提供しています。有料版は1年で15万ウォン(約16000円)程です。」


-vitoはつまり、自分が電話をかけると、自動的に音声を録音してテキストにまとめてくれるということですよね?NaverNote(ネイバーノート)と何が違うのですか?NaverNoteも音声録音したものをテキストに変換してくれますよね?無料ですし。

「NaverNoteもファイルで一つ一つアップすれば、同じように使えます。returnzeroでは、電話するときにあれこれ気にせず、自動的に、正確に、そして電話でのお互いのやり取りが重ならないように、うまく書き起こすことができます。通話により最適化されたアプリです。」


顧客とのミーティング動画を自動的に分析...「この時、こういう風に価格を言ったら、飲んでくれた」 


-vitoだけ見ると、市場が思ったより小さいように思うのですが。

「実はキャップがある市場なんです。業務電話を録音しながら使用する方は韓国内では300万、多くても500万人いないと予想しています。このうち有料でも使ってくださる方は最大で50万人までと予想しています。」


-それが最大でしょうね。市場自体がそれほど大きくないのであれば、B2Bで企業に売る必要がありますよね?イム・サンウク代表は「Callabo」について話されていました。

「はい。Callaboというサービスです。企業が会議をするときにアーカイブして議事録を作成してくれるサービスです。今年初めにリリースし、スタートアップを中心にした40社ほどがお金を払って使っています。Zoomのようなビデオ会議をするときに、returnzeroのエージェントが自動的に入って録音・録画して提供します。クラウドに議事録を作成し、インサイトも抽出します。SaaSの形で製品を供給しています。


-昔風に言えば、会議で新入りがやる仕事を代行してくれる?

「そう捉えるとそうですね。でも、今や新入りより優秀です。会議全体がすべて自動的にアーカイブとして録画されます。ユーザーの中で、営業の方が顧客とのミーティングで使ってみた感想としては、『お客様がどんなトーンで、どんな表情で、どんなタイミングで何を話したか』を他のチームメンバーと共有でき、後にレビューできるのが良いと仰っていました。」


-社内のミーティングより、顧客とのミーティングの方に有用?

「はい。企業は営業会議で一番活発に使っているようです。内部では少し重要なミーティングには使用して。最近、HR会社から多く購入されていますが、採用候補者の話、面接内容・結果を採用試験の次の段階へと引き継ぐ場面で重宝しているそうです。」


-なるほど。採用面接を3、4回行っていく際、面接官が候補者と面接する前に、前回の面接官との会話テキストを見て入れば、より深い話ができるでしょうね。品質はどうですか?実は音声→テキストはまだ完璧ではなく、参考程度ではないでしょうか?

「一文字一文字まで間違っていないかと言われれば、もちろんそうではありません。言語モデルが大きくなるにつれて、精度はどんどん高くなっています。また、分野ごとにデータが蓄積され、分野ごとの精度も上がっています。重要なのは、大きな文脈からインサイトを導き出すことです。営業を例にとると、お客様との会話のデータを分析して、どのタイミングで価格の話をしたらうまくいった、どのタイミングではこんなことを言ってはいけないというようなことです。このような内容を分析してインサイトとして抽出するには、音声認識の精度は十分に確保しています。」


 -単なる記録ではなく、戦略リポートということですか?

「はい。先ほど話したCallaboでは、ベータサービスとして様々な機能を提供しています。現在は一番簡単な形のリポートしか出ていません。GPT4のようなLLM(巨大言語モデル)を活用・適用してリポートを提供する機能をベータ版で試しています。」




 1000万時間の韓国語データセット、AIのインターフェースにも挑戦


-ChatGPTの登場以降、LLMのおかげで有利になったスタートアップ企業、またはマイナスになった企業があると言われていますよね。returnzeroにはプラスだった?

「得になった部分が多いです。returnzeroはこれまで音声に重きを置いており、次のステップとしてNLP(自然言語処理)を導入していこうと思っていたのですが、うまくいきませんでした。要約を行うだとか、インサイトを出すとか、そういうことができなかったのですが、言語モデルが出たおかげで、ドメインごとにうまくできるようになりました。当社ははるかにコストを抑えながら、多くの良質な機能を追加することができます。」


 -具体的にお願いします。

「先ほどCallaboというサービスにおける営業チームの話をしましたよね。営業チームのリーダーとしては、それぞれの営業マンがどのようにうまくいったか、どれだけ改善できるのか、このような情報を提供できる通路となります。Callaboにはこのような機能が搭載されていく予定です。ご存知の通り、韓国はGPT4以外にまだファンデーションモデルがありません。今年の下半期か来年初めに韓国のファンデーションモデルも良くなると予想しています。returnzeroのCallaboも徐々に向上していきます。コールセンターを例にとると、今日一日入った内容の中で、30代男性の特定の商品の解約が有意に多かったとか、あるいは特定の競合会社の名前が有意に多く出てきたとか、先週と比較して何か違いがあるとか、このようなインサイトを毎日すぐに抽出することができるようになります。」


-例えばChatGPTと連携したサービス?直接言語モデルは作らないのですか?

「returnzeroは、言語モデルを作る仕事をやりながら、ChatGPTを使う方法も、両方やっています。今はAPIを使った方がパフォーマンスが高いです。先ほど申し上げたように、韓国語はまだ基礎モデルが良いものがありませんが、すぐに出てくると予想し、直接モデルをドメイン別に学習させるために能力を高め続けているところです。」


 -言葉ではパッと理解できませんね。

「一度Callaboを使ってみてください。会議で出た音声を上手く書き起こすことは別として、コンテキストを理解し、次回のインサイトを引き出す、あるいは今回の会議内容の上から次にやるべきテーマは何か導く、こういうことを以前はNLP(自然言語処理)でやろうとしていました。しかし、LLMはプロンプトのみを使ってもNLPよりうまく作れるようになりました。このような機能を開発する方がはるかに安く、早くなったのです。」


 -イム・サンウク代表は「returnzeroが素晴らしいのは、本当に方向性が定まった一つのビジネスモデルを作っている点だ」と仰っていました。

「returnzeroはvitoサービスを最初にリリースしたのですが、利用者が多くなり、今では韓国で一番大きなデータセットを確保しました。通話から方向の定まった、最適化されたモデルを作ることができ、これがAI CC(人工知能コンタクトセンター)や企業向け製品のベースモデルとして作られています。」


-明確なデータをたくさん確保しているのが強み?

「データもそうですが、大規模なモデルを提供した経験が大きな財産となりました。実はGPUを使用するモデルサーブなので、どうしてもサーバーのコストが高いのですが、returnzeroが韓国語においては音声認識を一番多く処理した経験を持っています。」 

 

vitoとCallaboを制作する人たち/returnzero


-どのくらいの大きさのデータセットですか?

「約1千万時間の韓国語データセットを備えています。韓国語では多くても数万時間程で、かなり大きなデータセットだと言われますが、returnzeroではvitoを通じて膨大なデータセットを手に入れることができました。もちろん匿名データで作ったデータセットです。高品質で多様性の高いデータセットであり、韓国語の自由発話、つまり人々が実際に会話したデータです。」


-データセットを活用すれば、他のビジネスモデルに拡張できるのでしょうか。

「当社は、音声が最終的にAIと人をつなぐインターフェースになると予想しています。ChatGPTも現在はプロンプトを使用していますが、最終的には音声が一番情報量が多く、様々なニュアンスを含んでいます。AIとコミュニケーションする道は、最終的には音声になると予想しています。」


-日本語もサービスしてますよね?

「日本では今年からAI CC(人工知能コンタクトセンター)に技術を納品して進出しました。AIではアメリカが圧倒的にすべての面で先行しており、中国も負けていません。現在、市場が十分に大きく、競争状況が少ないのがアジアでは韓国と日本です。日本はほぼ全ての面で韓国の3倍、4倍程度の市場規模です。returnzeroは「アジアで音声人工知能が一番得意な会社」を目指します。韓国と日本を目標に、モデルを高度化し続けています。」

/media/ちょい事情通の記者(쫌아는기자들)
記事を書いた人
ちょい事情通の記者(쫌아는기자들)

朝鮮日報のニュースレター、「ちょい事情通の記者(쫌아는기자들)」です。

  • ホーム
  • 企画記事
  • 【returnzeroのイ・チャムソル】「1000万時間の音声データセット」を持つスタートアップ