進化した「Google翻訳」がスゴすぎる

2016-11-16 15:12

Google翻訳

Googleは2016年11月15日(米時間)、Google翻訳をフレーズベースの機械翻訳からニューラルネットワークを利用したニューラル機械翻訳(Google Neural Machine Translation=GNMT)に置き換えることを発表しました。まずは日本語を含む8言語(英語、フランス語、ドイツ語、スペイン語、ポルトガル語、中国語、日本語、韓国語、トルコ語)がGNMTによる翻訳対象となります。

従来のGoogle翻訳ではパーツごとに翻訳していましたが、GNMTでは文章全体を一度に翻訳します。文脈を把握することでより正確な翻訳をおこない、その後で言葉の順序変更や調整を加え、人が正しい文法で話すような自然な文章に仕上げるわけです。そして、この翻訳システムは学習しつづけることで、さらに精度が高まっていきます。

論より証拠。たとえば次の文章(故スティーブ・ジョブズ氏が米スタンフォード大学でスピーチした内容の一部)を日本語から英語に翻訳してみると、GNMTのスゴさが分かるでしょう。

Reed College at that time offered perhaps the best calligraphy instruction in the country. Throughout the campus every poster, every label on every drawer, was beautifully hand calligraphed. Because I had dropped out and didn’t have to take the normal classes, I decided to take a calligraphy class to learn how to do this. I learned about serif and sans serif typefaces, about varying the amount of space between different letter combinations, about what makes great typography great. It was beautiful, historical, artistically subtle in a way that science can’t capture, and I found it fascinating.

None of this had even a hope of any practical application in my life. But 10 years later, when we were designing the first Macintosh computer, it all came back to me. And we designed it all into the Mac. It was the first computer with beautiful typography. If I had never dropped in on that single course in college, the Mac would have never had multiple typefaces or proportionally spaced fonts. And since Windows just copied the Mac, it’s likely that no personal computer would have them. If I had never dropped out, I would have never dropped in on this calligraphy class, and personal computers might not have the wonderful typography that they do. Of course it was impossible to connect the dots looking forward when I was in college. But it was very, very clear looking backward 10 years later.

Again, you can’t connect the dots looking forward; you can only connect them looking backward. So you have to trust that the dots will somehow connect in your future. You have to trust in something — your gut, destiny, life, karma, whatever. This approach has never let me down, and it has made all the difference in my life.

Text of Steve Jobs' Commencement address (2005)

GNMTによる翻訳(英語→日本語)
当時のリード・カレッジではおそらく、その国で最高の書道の指導をしていました。キャンパス全体を通して、あらゆるポスターが、すべての引き出しのラベルは美しく手書きされていました。私が中退して普通の授業を受ける必要がなかったので、私は書道の授業を取ってこれを行う方法を学ぶことにしました。私はセリフとサンセリフの書体について学び、さまざまな文字の組み合わせの間のスペースの量を変えて、偉大なタイポグラフィを素晴らしいものにすることについて学びました。それは美しく、歴史的で、芸術的に微妙で、科学は捕らえられない方法で、私はそれが魅力的であると感じました。

これのどれも、私の人生に実用的な応用を望むものさえありませんでした。しかし、10年後、私たちが最初のMacintoshコンピュータを設計していたとき、それはすべて私に戻ってきました。私たちはそれをすべてMacに組み込んだのです。それは美しいタイポグラフィを持つ最初のコンピュータでした。私が大学でその1つのコースに入学したことがなかったら、Macは決して複数の書体または比例した間隔のフォントを持っていなかったでしょう。そして、WindowsはMacをコピーしたばかりなので、パーソナルコンピュータはそれを持っていない可能性が高い。もし私が決して脱落しなかったなら、私はこの書道の授業には一度も入らなかっただろうし、パーソナルコンピュータは彼らがしている素晴らしいタイポグラフィを持っていないかもしれない。もちろん、私が大学にいたときに楽しみにしていた点を結ぶことは不可能でした。しかし、それは10年後に後ろ向きに見えることは非常にはっきりしていました。

繰り返しますが、ドットを前方に接続することはできません。それらを後方に向かってのみ接続することができます。だから、ドットはあなたの将来に何とかつながると信じなければなりません。あなたは、あなたの腸、運命、人生、カルマ、何でも信頼する必要があります。このアプローチは決して私を失望させず、それは私の人生のすべての違いを作った。

従来のGoogle翻訳(英語→日本語)
リード大学は、その時点ではおそらく国内最高水準のカリグラフィ教育を提供します。キャンパスごとポスターを通して、すべての引き出しの上のすべてのラベルは、美しい手書きのカリグラフィました。私がドロップアウトしていたし、通常の授業を受ける必要はありませんでしたので、私はこれを行う方法を学ぶために書道のクラスを取ることにしました。私は素晴らしいフォントを実現するかについて、異なる文字の組み合わせの間のスペースの量を変化させることについて、書体セリフセリフとサンセリフについて学びました。科学が取り込むことができない方法で、美しい歴史的、芸術的に微妙だった、と私はそれが魅力的な発見しました。

これのどれも私の人生の中で任意の実用的なアプリケーションであっても希望を持っていません。我々は最初のMacintoshコンピュータを設計していたとき、しかし10年後、それはすべて私に戻ってきました。そして、私たちは全てをマックの設計に組み込みました。それは美しいタイポグラフィーとの最初のコンピュータでした。私が大学であのコースひとつ寄り道していなかった場合は、Macは、複数の書体やプロポーショナルフォントを持っていたことがないだろう。Windowsはちょうどマックをコピーしたので、それは、パーソナルコンピュータがそれらを持っていないというのはよくあることです。私がドロップアウトしたことがなかった場合、私はこの書道クラスにはドロップしたことがないだろう、とパソコンには今あるような素晴らしいフォントを持っていない可能性があります。もちろん、私が大学にいたときに楽しみにして点と点を結ぶことは不可能でした。しかし、それは非常に、非常に明確な10年後に後方に探していました。

繰り返しますが、楽しみにしてドットを接続することはできません。あなただけ後方探して、それらを接続することができます。だから、ドットが何らかの形であなたの未来に接続することを信頼する必要があります。あなたの腸、運命、人生、カルマ、何でも - あなたは何かを信頼する必要があります。このアプローチは、私を失望させたことがない、それは私の生活の中ですべての違いをしました。

かなり自然な翻訳になってきていることが分かります。

逆に日本語から英語への翻訳だとどうなるのか、夏目漱石の『吾輩は猫である』の冒頭部分で確認してみましょう。

 吾輩は猫である。名前はまだ無い。
 どこで生れたかとんと見当がつかぬ。何でも薄暗いじめじめした所でニャーニャー泣いていた事だけは記憶している。吾輩はここで始めて人間というものを見た。しかもあとで聞くとそれは書生という人間中で一番獰悪な種族であったそうだ。
夏目漱石 吾輩は猫である

GNMTによる翻訳(日本語→英語)
I am a cat. There is no name yet.
I have no idea where I was born. Everything remembers only those that were crying Nyaña at a damp and damp place. I first saw human beings here. Moreover, when I listen to it later, it seems that it was the most violent tribe in the human being as a student.

従来のGoogle翻訳(日本語→英語)
It is a cat. The name is still no.
Tonto unexpected tell one guess where you were born. Anything dim dank that was crying Meowing at only remembers. I saw a thing called human beings for the first time here. And later I hear and it's so was most Doaku race in human beings student.

明らかに違いが見て取れる翻訳になっています。

たしかにGNMTによる翻訳でも、いまだ不自然な箇所はいくつも見受けられます。とくに主語の省略や代名詞、会話の取扱いに難点があったり、翻訳時に常識や知識が必要となる場合や語義の曖昧さにうまく対応できなかったりするようです。しかし、現状でも従来の翻訳と比べると明らかに翻訳の質が向上しており、近い将来、言語の壁がかなり低くなるのではないかと期待させてくれる出来栄えです。

Googleによれば、GNMTを使用したGoogle翻訳は当面、Google検索とGoogle翻訳アプリおよびウェブ版Google翻訳で利用可能。いずれGoogle翻訳を利用する全ての状況においてGNMTが適用されるようになります。またGNMTは、Google翻訳の対象となる103言語全てに展開されていく予定です。