企画記事

「この山じゃないようだ、そう思って下山するときは」| Gaudio Lab オ・ヒョンオ

アイキャッチ
目次

「この山じゃないようだ、そう思って下山するときは」

[Gaudio Lab] ディープテクノロジーの孤独なマネタイズ、「小さな池、大きな魚戦略」

Gaudio Lab(ガウディオラボ)はユニークにも「音」に関するディープテクノロジースタートアップです。LG電子のTVサウンドシステムを開発したオ・ヒョンオ博士と韓国を代表する音響研究開発者が集まって2015年に設立したスタートアップです。私たちはみんな音を聞いて生きていることから、大きいといえば大きい、ビジネス的にニッチといえばニッチな市場をターゲットにしました。VR、AR、映像コンテンツなど、音を使う様々な企業に技術を売るというビジョン、2022年の 最初のインタビューはこのような感じでした。

そして2年経った現在、Gaudio Labの姿は大きく変わりました。最近、CESで音生成AIを発表して話題になりましたが、推進していたVRなど、様々な音響機器事業については音沙汰がありません。売上高は依然として数億円台で、横ばいです。このような状況でGaudio Labにお会いしました。「テクノロジーをマネタイズするのは難しい、もしかしたら厳しいディープテクノロジースタートアップの宿命のようなものなのではないか」という疑問を持ちました。しかし、オ・ヒョンオ代表は「戦略を修正するための過程」だったと語ります。今やGaudio Labは「小さな池の大きな魚」戦略です。日本のカラオケ、OTTやコンテンツクリエイター市場など、非常に尖った市場を精巧にターゲティングし始めました。

何よりも、Gaudio Labは今まで開発したり、営業していた事業アイテムを6つ以上畳んだといいます。すべて人手とお金と時間を投資したものであるにもかかわらず。スタートアップ起業家の宿命。 「この山じゃないかもしれない」と組織メンバーを引っ張って、他の事業への挑戦を続けることができた方法についても伺いました。

Gaudio Lab オ・ヒョンオ代表 /ナム・ガンホ記者

1.「サラドール・ダリ?私たちはジャック・フォーリー」、音生成AIを探しにナデラCEOが来た理由は

-今回のCESではGaudio Labが話題になりました。サティヤ・ナデラさんが直接ブースを訪れたのですね。何があったのでしょう。

「今回のCESで披露したもののうち、生成AIはデモストレーションでした。展示ブースにいたところ、突然Microsoft(マイクロソフト)の関係者が来て、Gaudio Labのサウンド生成AIに興味を示しました。最初に実務担当者が先にデモを見た後、次に中間管理職が来て2回目のデモを見ました。すると、その場で「VIPが(ブースに)来るかもしれない」と言われました。そして数時間後、MSのサティヤ・ナデラ CEOがブースを訪れました。」

-サウンドを生成するAIの名前はFALL-E(フォーリー)、ユニークですね。サティヤの反応も気になります。

「FALL-E、フォーリーです。サウンドエンジニアリング業界では「フォーリーアーティスト」と呼ばれる方がいます。広告やドラマ、映画に効果音ってありますよね?それを作る人をフォーリーアーティストといいます。この仕事を初めて専門にした方で、先駆者の名前がフォーリー(Foley)だったんです。馬の蹄鉄の音や銃声から、韓国ではキム・ボルレという方が有名ですよね。1970年代のペプシの広告にペプシ特有のボトルキャップを開ける音を録音して送ったところ、あなたの言い値でと白紙の小切手を受け取った方です。当時コンドームを破裂させたり、空気を抜いたりしがら録音したそうです。このような専門的な技術とノウハウをもとに音を生み出すという意味が込められています。

MSとOpenAIの画像生成AI「DALL(ダリ)」が画家ダリの名前にちなんでいるように、FALL-Eはフォーリーにちなんでもいます。サティヤCEOに「そちらはDALL-E、こちらはFALL-E、相性が良い」と言いました。もちろんデモンストレーションもご覧になりました。数分程度の短い時間でしたが、ナデラは私たちの技術にかなりの興味を示していたと思います。」

-AIが映像を自分で把握して音を出すということですか?人が説明する必要がありますか?

「現在のFALL-Eの技術レベルは、テキストの説明(description)を入力すると、それに合ったサウンドを生成する'Text-to-Audio'の段階です。現時点では、この方法が最も効果的で効率的です。まず、与えられた画像を分析して説明テキスト(description)を生成する他のAIソリューションを活用します。そうして作られた説明テキストをFALL-Eが理解できる形に変換する事前学習(pre-training)を行います。こうすることで、画像を入力すると、FALL-Eが適切な音を生成する原理です。

結局、映像の断片的なシーン、画像に基づいて音を生成するため、音と映像の同期を合わせる技術までは完成していません。犬が吠えるタイミングで正確に吠える音を出すというような実装には、もう少し時間が必要な状況ですね。これから解決していかなければならない課題です。」

-音と画像にマッチする複数のDBがなければなりませんが。そして、このデータがどのように目的の音になるのか、技術的な原理が気になります。

「テキストとそれにマッチする音データを大量に確保し、それをFALL-Eに注入します。膨大な量のテキストと音のペアを学習させることで、新しいテキストが入ったときに、それに似たテキストに対応する音を見つけて出すという仕組みになっています。さらに、技術的に言うと、FALL-Eはディフュージョン(Diffusion)モデルを使用しています。Stable Diffusionのような最新の画像生成AIでも活用されている方法です。音声生成では、ホワイトノイズからスタートし、まるで彫像を削っていくように、徐々に音を磨いていくという方式を適用しました。最初は大まかなレベルの音から始めて、学習したデータをもとに、テキストの描写に合った音にどんどん近づけていくんです。まるで大理石を削るようにホワイトノイズを少しずつ加工していくと、あるテキストには犬の吠える音が、あるテキストには電車の音が対応するように進化していきます。」

-競争相手はいないのですか。実はビッグテックがこの技術を保有していたとか。

「もともとはイギリスのサリー大学がこの研究を多く行っていました。そして、Meta(メタ)が「Audio Zen(オーディオゼン)」という音生成AIをオープンソースで広めたのですが、普及はしませんでした。そして最近では、ElevenLabs(イレブン・ラボ)というアメリカのスタートアップも音生成AIを開発しているんですね。

CES 2024Gaudio Labブースを訪れたMSのサティヤ・ナデラCEOに技術を説明するGaudio Labのイ・グクジン副社長)。/Gaudio Lab提供

OpenAI(オープンAI)の映像生成AI「sora(ソラ)」には音声がない。Gaudio Labは、このsoraの映像にFALL-Eを使って音をつけた。映像の中の音はすべてAIが生成したものだ/Gaudio Lab

2.エジソンスピーカーとCDの革新で止まったオーディオの革新、再び訪れるか?

-オーディオ市場は市場自体があまり大きくないという認識があります。デバイスもAirPods(エアポッズ)が制覇したように思いますし。何というか、AIや電気自動車、スマートフォンのような衝撃を与えるような技術は出てこないのです。 

「音声のインパクトは、画像や映像に比べると少し小さく認識される面がありますね。派手なビジュアルで即座に注目を集めるのは簡単ですが、音声のみでそれだけのインパクトを与えるのは簡単ではありません。しかし、もっと大きな理由は、オーディオ分野の専門家プール自体が非常に小さいことにあります。もちろん、誰しもが別途の背景知識なしに飛び込むことはできますが、その場合でも、画像/映像分野に比べて参考となる先行研究やオープンソース資料が圧倒的に不足している状況です。 

ドメインの知識を持った専門家プールで言えば、例えば映像分野に100人の専門家がいるとすると、オーディオ分野には1人いるかいないかくらいのレベルです。世界的に見ても、オーディオの方面で工学博士クラスの人材は、全部合わせても3000~4000人程度しかいません。映像に比べ、様々な産業現場で活躍した人材もはるかに多いので、そのプールの差は大きいです。Gaudio Labが博士レベルのオーディオ専門家9名がチームメンバーです。電子大企業、音響専門企業ではなく、スタートアップの基準で本当に多くの専門家が集まっているわけです。」

-そうすると、悪循環が続くのでは?技術的なブレークスルーでお金を稼ぐディープテクノロジースタートアップにとっては、この市場は宿命的で難しいということですね。

「おっしゃる通り、オーディオ市場で差別化を図るのは本当に難しいのは事実です。オーディオ技術は何十年も前から停滞している感は否めません。画像や映像分野だけ見ても、ディスプレイ技術はブラウン管からPDP、LCDを経てOLEDまで目覚ましい発展を遂げてきました。映像の解像度や画質もどんどん進化しています。それに比べて、実際に音を再生するスピーカーは、エジソン時代のあのコイルと磁石の振動という原理から大きく逸脱することなく、100年近くも同じ道を歩んでいるわけです。オーディオ信号自体も同様です。1982年に開発されたCDフォーマットが今でも最高音質の基準とされているのが現実です。結局、オーディオ分野では根本的なフォーマットの革新やパラダイムシフトが遅々として進まないため、研究をしても新たなブレークスルーを起こすのはなかなか難しいのです。

一方、画像や映像の分野は、どんどん新しい状況が開かれています。OLEDが商用化されれば、関連素材や画質を研究する新たな機会が生まれ、解像度が4Kから8Kにジャンプすると、コンテンツ制作技術も一段と飛躍します。最近ではAR機器にマイクロLEDを組み込むなど、イノベーションの風が吹き続けています。このような雰囲気の中で、映像分野は優秀な人材が集まり、活発な研究が行われる好循環が生まれます。一方、オーディオの世界では、これといった食い扶持がないため、人材プールもどんどん減っていくという悪循環に陥っています。これが今の現実です。

せめて最近のAI技術の発展が、この悪循環の連鎖を断ち切る糸口になることを期待しています。ただ、音声AIの開発に不可欠である、データが十分でないことが大きなネックになっています。画像の場合、キャプション付きのタグ付けされたデータは簡単に手に入るので、AIの学習はしやすいのですが、音声は「犬の鳴き声」というようなラベルの付いたデータを手に入れるのは至難の業です」。

-では、Gaudio LabはどのようにFALL-Eに使われたデータDBを確保したのですか?

「2022年にWaveLab(ウェーブラボ)という韓国国内のサウンドスタジオを買収しました。過去20年間で250本以上の映画のサウンドを担当している会社です。昔は映画を作って最終フィルムを送ると、その中に入っている効果音や音は無駄なデータでしたが、今や黄金のデータです。このライブラリの有無でAIのレベルが変わります。アメリカにはこのようなライブラリを販売している会社もあり、契約してDBを使用しています。」


3.Qualcomm(クァルコム)、Apple(アップル)がサウンド関連製品を出し続ける理由...「サウンドが差別化ポイント」

-サウンド制作にAIを使うのは、結果的にAIが生産性を非常に高めてくれるからでしょう。なぜなら、結局、サウンドというのは、AIに私たちが認識したり、予測可能な範囲の外のことを期待するのではなく、聞き覚えのある音を人に近いレベルで出せばいいのですから。

「フォーリーアーティストが行う音声の製作は、想像以上に難しく、手間がかかる作業です。例えば、馬の蹄の音が必要なら、済州島(チェジュ島)に行って直接馬の蹄の音を録音してくるのが一番良いでしょう。問題は、それに比べて映画製作費の内サウンドに投資されるのは1%程度しかないことです。その少ない予算でフォーリーアーティスト、音響監督などが分担しなければならないので、十分な投資が難しいんです。

二つ目に、私たちが期待する音、コンテンツで実感する音と実際の音が異なる場合があります。映画「神弓-KAMIYUMI-」に出てくる弓の音は、実際に弓を撃った音ではありません。水を撒くゴム製のホースを使って、それを激しく動かす音を録音したものです。実際の弓では、私たちが想像するような「シューッ」という音はほとんど出ません。このようなノウハウが必要な割に、サウンドに投資される額はまだまだ小さいです。

一方、AIを活用すれば、より少ないコストで様々な効果音を簡単に作成することができます。技術力さえ確保できれば、サウンドのクオリティを落とさずに製作単価を革新的に下げることができます。同時に、誰でもAIを活用して直接サウンドを生成できるようになるので、アクセシビリティの面でも大きな変化が起こるでしょう。独立映画製作者のようなフォーリーアーティストを雇う余裕がない人も、ブロガーやYouTuber(ユーチューバー)のような1人クリエイターも、AIのおかげで簡単に効果音をつけることができるようになります。もちろん、まだ技術的に補完しなければならない部分はありますが、映像と音を完全に同期させることも、近いうちに可能になるでしょう。」

-では、いつからFALL-Eを使えるのでしょうか?

「現在クローズドベータ版で、今年上半期中にオープンベータ版が期待できるでしょう」。

-オーディオ市場が小さいとはいえ、先日、Qualcommがオーディオ関連の半導体とプラットフォームを新たに発表しました。SAMSUNG(サムスン電子)やAppleからサウンド関連機器や技術が続々と出てくることもあります。AppleやQualcommのような大手企業がオーディオ部門に継続的に投資する理由は、結局、差別化された競争力を確保するためだと思います。

「オーディオ関連の技術は、実はCDが発売された80年代初頭からすでに十分なクオリティを確保していたと言えます。それ以降はサンプリングレートを48kHzから96kHz、192kHzと上げていくことでスペック競争をしてきました。ワイヤレスイヤホンで高音質音源をストリーミングしたり。しかし、このような違いはほとんどの人は体感するのが難しいレベルです。ブラインドテストをしてみると、一般の人は聞き分けられない場合が多いです。結局、オーディオファンの心をつかむための、一種のマーケティングなのです。信念の領域というわけですが….ここに説得されてハイスペックな音を追求し始めると、192kHzの音源を求めることになります。そうすると、データ処理量が4倍になり、必要なコンピューティングパワーも4倍、仕様も4倍にしなければなりません。結局、製品コストの上昇につながざるを得ないんです。

それにもかかわらず、Qualcommのようなチップメーカーが絶えずオーディオ関連の新製品を出す理由は、スマートフォン市場には差別化できるポイントが少ないからです。すでにフラッグシップ製品の性能やデザインが平準化されているので、オーディオで少しでも優位に立とうという訳です。スパートフォンを見てください。これ以上新しい機能や技術が投入されることは難しいでしょう。このような時に、サウンド技術で差別化を図るのです。Appleが代表的です。Appleは昔からオーディオ品質を強調してきたので、そのためか、消費者の間では「良い音を聞きたいならApple」という認識が定着しています。スペックや数字ではなく、コンセプトとディテールで勝負したケースです。」

-音声生成AIが普及して、ChatGPTのようにサブスクリプション料金を稼ぐには、まだ技術レベルが達していないようですね。機器市場がビッグテック中心に回るなら、Gaudio Labは別の市場を探さなければならないかもしれません。

「生成AI以外の市場、Gaudio Labが重要視している市場はカラオケとコンテンツ市場です。開発中のAI技術を活用すれば、放送局が音源著作権の問題で悩んでいる部分を解決することができます。例えば、特定のシーンに挿入された音源を著作権の心配なく自由に入れ替えることができる技術などです。カラオケソリューションの場合、日本企業との協業を検討中です。ところで、既存の韓国と日本のカラオケ会社の音源は「ミディファイル」と呼ばれる直接録音・制作した曲です。著作権の問題で使用に制限があります。Gaudio Labは、ストリーミング音源をAIで伴奏バージョンに変える技術を開発中です。これにより、著作権を気にすることなく、車内でカラオケを楽しむことができるのです。

音楽を聴く2つの主要なプラットフォームがあるとすれば、パーソナルオーディオ機器と車と言えます。特に運転席は、他の人に邪魔されることなく大きな音を聞くことができるユニークな空間ですよね。自動運転車の時代が来たら、車内はエンターテイメント空間へと再編成されるでしょうが、その時には映像コンテンツには乗り物酔いなどの限界があります。しかし、オーディオコンテンツは制約がありません。車の中でカラオケのように簡単に歌を歌う時代が来るでしょうし、自動車メーカー側もソフトウェアで新しい収益源を作らなければならない状況です。車でもAIを活用したサウンドテクノロジーが必要になるはずです。」

テスト中のFALL-Eのサービス画面 / Gaudio Lab提供

4.K-コンテンツの海外輸出、「音源が足かせになる時」を狙った技術ソリューション

-韓国国内放送局やOTTプラットフォームに音楽著作権解決ソリューションを販売しました。自分たちが作ったコンテンツに音源の著作権問題が発生した? 

-コンテンツ輸出市場を狙った技術ソリューションですね。YouTuberも音楽著作権で映像を再編集していましたね。

-しかし、このような独特な市場のルールは韓国に限られているのでは?アメリカや日本の大手放送局やコンテンツ制作会社に売らなければ「大金」を稼ぐことはできないでしょう。

映像コンテンツの複数の音源と音声を分離して交換できるプログラム、GaudioStudioPro(ガウディオスタジオプロ)。/Gaudio Lab提供

5.日本のカラオケ市場にはなぜ?

-日本のカラオケ市場を狙っています。日本のカラオケ市場に特別な技術的ニーズがあるのですか?

-技術を使って寡占市場を打破し、より安価なカラオケ伴奏を作るということですね。それでも、音源に関する複雑な著作権問題が存在することもあるでしょう。

-世界のカラオケ市場の規模はどのくらいですか?日本の市場規模は?


6.サウンドディープテクノロジースタートアップの宿命か

-昨年の売上高は36億ウォン(約4億円)でした。創業9年目、多くの事業が収益化に失敗しているのではないでしょうか。

-オーディオ技術の最終デバイスはApple、SONY(ソニー)、SAMSUNG(サムスン電子)...コンテンツはYouTube(Google)、Netflixと音源もまたApple、Spotyfy(スポティファイ)、KaKao(カカオ)など。オーディオ技術は、最終的に最終製品を販売する超大型電子企業やサービスプラットフォームや運営テック企業に依存せざるを得ない宿命を背負っています。

-特定のビジネスモデルや製品を畳むと、そこに投入した技術を捨てなければならないか、その技術の活用先が見つからないという問題が発生します。

Gaudio Labが事業初期に挑戦したVRサウンド関連技術のデモンストレーションの様子 /朝鮮日報 DB

7.Gaudio Labの組織が「この山じゃなさそうだ」を6回以上できた理由

-今までに何件の事業アイテムを畳みましたか?

-これほどであれば、会社のメンバーは大きく動揺するでしょうね。

-特定の商品やサービスを「儲からないから」という理由で畳むと、それを作ったチームメンバーや役員が自ら会社を辞めたり、責任を取ることもあります。それなのに、Gaudio Labは、サービスを畳んだからと、自発的に、または他意で会社を辞めた人はいないそうですね。

-事業を畳んで、新事業のための階級章なしの無制限討論。そうなると、代表の意見と正反対のサービスが発売されてこそ、本当の「自由討論」でしょう。



/media/ちょい事情通の記者(쫌아는기자들)
記事を書いた人
ちょい事情通の記者(쫌아는기자들)

朝鮮日報のニュースレター、「ちょい事情通の記者(쫌아는기자들)」です。

関連記事

  • ホーム
  • 企画記事
  • 「この山じゃないようだ、そう思って下山するときは」| Gaudio Lab オ・ヒョンオ