AIオーディオ企業ElevenLabs(イレブンラブス)が、映像・音声コンテンツの翻訳・吹替モデル「Dubbing v2」をリリースした。Dubbing v2は、テキストスクリプトのみに依存して単調または途切れがちな音声を生成していた従来のAI吹替の限界を改善したことが特徴だ。原音に含まれる感情やトーン、イントネーション、発話の間隔、話し方など、話者の実際の発話を分析し、多言語音声に反映する。英語を含む90以上の言語をサポートしている。
同社は、韓国がドラマや映画、K-POP、ウェブトゥーン・ウェブ小説IP、ゲーム、アニメーションなどグローバルなコンテンツ資産を保有しているものの、海外展開に向けては翻訳や台本作成、声優の収録、オーディオ編集、タイミング調整など膨大な制作工程とコストがかかっていたと説明した。Dubbing v2は、韓国語オリジナルコンテンツの感情表現と声の個性を活かしながら多言語展開をサポートし、韓国のIPのグローバル進出にかかるコストと時間を削減することが期待される。
Dubbing v2は原音の感情・トーン・イントネーションを反映したうえで、直訳ではなくターゲット言語の文脈に合わせて翻訳・調整する。翻訳後に生成された音声を原音の開始・終了タイミングに合わせるが、これは映像を操作したりリップシンクを強制生成したりする方式ではなく、発話タイミングを合わせる方式だと同社は説明している。原音話者の音色、ピッチ、トーンを自動反映するボイスクローニング機能も搭載されている。
ElevenLabsの音声AI技術は地上波放送の制作にも活用された実績がある。SBSは昨年、ドキュメンタリー『モンスターの時間(Time of Monsters)』の制作過程にElevenLabsの音声AI技術を導入し、実在人物の声を再生成した。SBS AIパートナーシップチームのパク・ジェヒョン部長は「ElevenLabsの技術をもとに、K-コンテンツのグローバルダビング・ローカライゼーション領域での協力を拡大していく計画だ」と述べ、「ElevenLabsがK-コンテンツの海外流通を拡大する技術パートナーになることを期待している」と語った。
ElevenLabs韓国総括のホン・サンウォンは「翻訳された音声が、まるで原音の話者が実際にその言語を話しているかのように感じさせることは、これまでAI吹替分野における最大の難題の一つだった」と述べ、「Dubbing v2は感情の再現力とシンクをもとに、韓国内のクリエイターやコンテンツ企業が言語の壁を越えてコミュニケーションできる足がかりになるだろう」と語った。Dubbing v2はElevenLabsプラットフォーム(UI)を通じて提供され、企業・エンタープライズ向けのAPIも順次拡充される予定だ。
