【XL8のチョン・ヨンフン】Googleの機械翻訳と競合するGoogleエンジニア出身の起業家
【XL8のチョン・ヨンフン】Googleの機械翻訳と競合するGoogleエンジニア出身の起業家
ちょい事情通の客員記者 チャン・ヒョンテ
自称「Googleよりも翻訳を上手くやる」という創業3年目のシリコンバレースタートアップがあります。名前からして難しい「XL8」です。エックスエルエイトと読みます。(内部ではエックスラージ8サイズと呼んだりもするそうです。)
どのような自信からそんな言葉が出るのか創業者チョン・ヨンフン(41)代表に最近お会いしました。
チョン代表はSAMSUNG(サムスン電子)で「悲運のOS」TIZEN(タイゼン)を開発した後、2011年にアメリカ・コロンビア大学に留学、コンピュータ工学博士を取得し、Googleに就職、4年間の検索チーム・イベントサーチチームを経てテックリードマネージャーにまで登り詰めた「完璧で自慢の息子」のようなスペックを持つ人物です。
きちんと勤めた後、2019年に辞め、翻訳スタートアップを作りました。なぜ翻訳界のトップであるGoogleを出て、レッドオーシャンの中のレッドオーシャンである機械翻訳スタートアップを始めたのでしょうか?チョン代表は「Googleはゴミのデータから金を作ろうという錬金術を行っている」と口にしました。かなり挑発的です。
XL8チョン・ヨンフン代表。SAMSUNG TIZEN OSチームとGoogle検索チームを経て、「Googleを越える」と2019年機械翻訳スタートアップ、XL8を創業した。 / XL8
「Googleはゴミのデータで金を作る錬金術をしている」
Googleはゴミのデータを使っている、と?
「私もGoogleにいましたが、GoogleはすべてのWebページを翻訳データとして使います。ウェブから英語のホームページ、韓国語のホームページを持ってきて、この単語がその単語であり、この文章がその文章だなと学習するんです。
ところが、そもそもがウェブデータなため間違っている部分がかなり多いのです。公式ホームページで使われている言葉は、私たち一般的に使う言葉とは違うでしょう。インポートするデータ自体に多くの問題があるのです。
悪いデータを良くするために、実はとてつもなく多くの手間をかけています。そのためGoogleでも半分ほどは悪いデータを良くする方法、少ないデータを増やす方法、悪いデータで学習をきちんと行う方法、言語データの多い言語を利用してデータの少ない言語を補完する方法 、このようなことを多く研究しています。
個人的には、これはすべて錬金術だと感じます」
錬金術ですか?
「実際のところ、ゴミのデータを使って、金を作ろうと努力しているのです。いくらやってみたところで、実際金にはなりません。錬金術がそうだったじゃないですか。せいぜい銅程度です。
一方、XL8はLSP (Language Service Provider)を行い、パートナーシップを通じて洗練されたデータのみをインポートします。一般人が作ったのではなく、プロの翻訳家たちが修正に修正を重ねて作ったものを頂いて、翻訳をするのです。そもそもGoogleとは始点が違うんです。錬金術はせず、ゴールデンデータを用いて翻訳を行っているので」
データ量がかなり違うと思いますが。
「そうです。Googleと比較すると、XL8のデータ量は100分の1程度?少ないです」
「機械翻訳が解決できなかった多くのペインポイント」
グーグルが100倍なら、凄まじい違いではないですか?
「はい。XL8もデータは多いんです。親会社が世界的字幕メーカー1位のIyuno(アイユノ)であり、業界歴が20年です。LSPから受け取ったデータは20年間積み重ねられてきたものです。ああ、まずLSPが何をしているのかを詳しく説明します。
Netflixでコンテンツを1,000本作ると、これを少なくとも20の言語に翻訳するのですが、自社で全てはできないんです。これをLSPにアウトソーシングするのです。LSPは完璧にしなければならないので、人が翻訳し、また人がついて検収します。このような過程を2、3回経ると、Googleとは異なる洗練されたデータが入ってくるのです」
費用と時間がかなりかかりそうですね。
「そうですね。やっと、第一段階の翻訳を人の代わりに機械翻訳が扱っています。IyunoとXL8もそうしたプロセスで一緒に仕事をしています。しかし、XL8の翻訳がIyunoに行ってただ終わり、ではありません。
当社は翻訳された結果を再び持ってきて、学習します。言い換えれば、当社の機械翻訳の間違いが再び修正されるということです。継続して翻訳エンジンを高度化できます。当社だけの強みです」
なぜ創業したのですか。
「Googleでの経験が大きいです。Googleが2017年に発表した「Transformer(トランスフォーマー)」の機械翻訳モデルがブレイクスルーとなりました。これを私がさらに進めれば、ビジョンを持つことができると感じました。
Googleで自然言語処理システムアプリを多く担当しました。ここに推薦を加え、多くの技術が入ります。こうしたことを行いながら、創業について考えていました。
実際、機械翻訳が解決できていない問題が多いのです。映像で話者を認識し、その人に合わせて翻訳を正確に行うだとか、声に感情を載せて後で伝えてくれるだとか。これは今Googleには出来ていません。それを解決したかったのです。
先月、盆唐(ブンダン)NAVER(ネイバー)本社で開かれた「シリコンバレーの韓国人」イベントで発表中のチョン代表。彼は「シリコンバレーでは、韓国人は業務知識も多く、責任感も高く、経験も多い。何よりも、仕事を論理的かつ、キッチリと行うという評価が多い」としながらも「英語が弱いこともあるが、自分がこの仕事をどんな意図で、なぜするのか説明する部分が、特に弱いのは短所」とした。
「してください・なさいませ・しろのような言葉遣い...韓国語はまだ70~80%水準」
XL8はIyunoの子会社ですか?
「字幕・ダビング世界トップの会社Iyunoの子会社です。Iyunoが株式40%、当社が50%を持っています。ジョイントベンチャー形式で始めました。当社の最大の顧客会社でもあります。当社のエンジンで第一段階の翻訳をすると、全世界3万人の翻訳者と仕事しているIyunoが検収します。
そしてこのデータを再び当社が受け取って高度化します。本当に大きな武器です。洗練されたデータを再び機械に学習させるのです」
XL8が特に強い言語はありますか。
「一般的に最も評価の高い翻訳は、英語を南アメリカスペイン語に翻訳するデータです。これがLSP評価10点満点で9.5点を受けました。すごく厳しい評価なのです。機械で翻訳したとき、100個のうち95個には修正せず、そのまま使用することができるレベルと見てもらえれば良いでしょう。リアルタイムで行う翻訳にも関わらず、機械が95%を出せるとなれば、すごいことです」
韓国語はどのようなレベルでしょう。
「韓国語は難易度が高い言語です。現在LSP評価基準で、70~80%程度です。Googleは現在50〜60%程度です。韓国語の場合には、敬語とタメ口の違いがとても重要なため、それを別に作っておくことはしました。してください・なされよ・しろ・して、このような語調を、似たニュアンスを持った英語で全て対応するのです。最近では韓国語が出発言語である翻訳需要がとても伸びています。
特に韓国語-ベトナム語、韓国語-スペイン語、韓国語-ロシア語が多くなりました。また、到着言語がスペイン語の需要も伸びました。トルコ語を南米スペイン語に変えてほしいという需要が高いですね。トルコドラマが人気なためだと思います」
「그거 주면 해볼게(それをくれたら、やってみるよ)」の機械翻訳、[XL8] If you give that, I'll try that. [Google] I'll give it to you
難しい言語ですね。
「そうですね。韓国語は翻訳がとても難しい言語です。自分たちを持ち上げようとしているのではなく、本当に技術的に見て、そうです。主語が省略されている場合がかなり多く、目的語も省略しているケースが思っているより多いです。
たとえば、聞いてみましょう。『それくれたら、やるよ』という文章。実は主語が2つある文章です。『あなたがそれを渡せば、私はそれをやってみるよ』という内容です。『あなた』と『私が』という言葉が欠けており、正しくは『あなたがそれをくれたら、私がやるよ』です。
さらに元々の2つ目の文章には主語も目的語もありません。このような韓国語の文章が多く、そもそもの難易度が大きく上がるのです」
XL8のエンジンは何と翻訳しますか?
「入力してみると、省略された部分がすぐにきちんと埋められて出力されます。「If you give that, I'll try that」このように。 (Google翻訳に「それくれたら、やるよ」と入力してみると、「I'll give it to you」という全く違う意味の文章が出た。)
現在、口語体の文脈把握がきちんとできる翻訳エンジンはほとんどありません。そのため、当社と圧倒的な差が出ています。私たちはこれを「Context-Awareness(コンテキストアウェアネス)」と呼んでいますが、これを導入し、XL8エンジンのクオリティが約10%以上向上しました。
特にこの先、韓国語翻訳にかなり役立っていくと思います。なぜなら、先ほどの文章のような内容の場合、前後の内容を理解してこそ把握することができますから」
人の役割はますます減りますね。近頃、AIによる絵で、絵方面も大騒ぎじゃないですか。
「翻訳は芸術分野とは少し異なります。絵は創造的な要素が介入するため正解がありませんよね。『花を持っている少女』を描くとして、その主語さえ入っていれば、どのように描こうとも正解はありません。音楽も同じです。しかし、翻訳は違います。
創造的でありながらも、元の意味をきちんと伝えなければなりません。正解の『方向性』はあると見ることができます。そして人間だけができる領域がはっきりとあります。近頃、顧客会社から、古典史劇や北朝鮮の言葉を翻訳してほしいという依頼も多くあります。
しかし、こうしたものは、うまくいきません。こうしたものは、単純な翻訳者ではなく、翻訳作家が行う仕事です。英語でもトランスレーションとは言わず、トランスクリエーションと呼ばれます。創意性・意訳の要素が入り、現地文化に合わせてローカライゼーションを行うのです。
まだ機械は『ウ・ヨンウ、キツツキ、トマト、スイス、子猫、南』このようなことはできません。(ドラマ「ウ・ヨンウ弁護士は天才肌」のセリフ,韓国語では「ウ・ヨンウ、기러기(雁)、トマト、スイス、인도인(インド人)、별똥별(流れ星)」)それで、コンテンツ翻訳は人と連携して行うモデルを続けていくつもりです」
先月、オランダのアムステルダムで開かれたテックイベントでブースを開き、自社翻訳ソリューションを紹介しているチョン・ヨンフン代表/ XL8提供
MONSTA Xのタイファンミーティングのリアルタイム機械翻訳
単純な翻訳だけを行っているのですか?字幕を作る領域にもテックが必要だと思うのですが。
「もちろんです。顧客会社から映像を受け取り、すぐに音声をテキストに書き起こすAIソリューションもあります。字幕をどの時点で切り、どのように配置するのか、こうしたことを自動的に行ってくれるソリューションもあります」
主要顧客会社であるグローバルOTTの実績が良くありませんが、他の市場はないのでしょうか。
「むしろ、景気が悪い時が私たちにはチャンスです。景気が良い時には字幕の需要があふれます。ところが不景気時にはコストの問題で、機械翻訳の需要が伸びます。費用が安いためです。不思議なのは、最近、字幕をかなり多くの会社が求めていることです。
昨年、当社が歌手MONSTA Xのタイファンミーティングにリアルタイムで字幕をつけたことがあります。これまでファンたちは、推しが韓国語で何を話しているのかもわからずに聞き、後でファンの中で翻訳して、共有したりしていました。
そうした中で、当社がリアルタイムで英語・中国語・タイ語字幕を付けたところ、とても反応が良かったです。最近ではグローバル企業の業務ミーティングにも当社の翻訳ソリューションが使われています。他にも不思議な需要があります。昨年、ヨーロッパのベッティングサイトが当社の顧客になりました。
犬レース、競馬 こうした中継に翻訳字幕をつけるのです。今後、このような多様な翻訳需要をすべて消化できるように領域を広げていく予定です。
XL8の字幕位置最適化機能。長い文章を適当な長さに、文脈に合わせて自動的に整理してくれる。翻訳エンジン動作画面。単位も自動的に変換する / XL8
朝鮮日報のニュースレター、「ちょい事情通の記者(쫌아는기자들)」です。
関連記事
-
スタートアップ支援金打ち切り問題、TIPSだけ信じていいのか?
#韓国 #スタートアップ #資金調達 -
投資の低迷期に革新を生み出すスタートアップになるには
#韓国 #スタートアップ #ユニコーン企業 -
【ちょい事情通の記者が送るキュレーティングレター】
#ちょい事情通の記者 #韓国 #AI #ChatGPT -
【そのとき投資】LIVIT、気候危機のゲームチェンジャー「タンソリューション」を提示する
#ちょい事情通の記者 #気候テック #炭素 #環境 #スタートアップ -
【ちょいやり手の社員】catchtable、月500万ウォン(約54万円)のマーケティング予算で100万人のユーザーを集める
#ちょい事情通の記者 #マーケティング #フードテック #SaaS -
ショートフォームコンテンツ時代のスタートアップのマーケティング戦略
#韓国 #スタートアップ #マーケティング #アドテック