aiueo KhasyaReport



QアンドA112
シンハラ文をグーグル翻訳する

 グーグルの機械翻訳。世界中の言語をランダムにふたつ組合せて翻訳する。日本語をシンハラ語に変換、ってこともぬけぬけとやってくれる。けど、まだ、ちょっとおぼろげで、ぎこちない。でも、これ、ずいぶん使えるようになって来た。


No-112 2018-March-30 Tuesday

   シンハラ語機械翻訳の試みは日本でも行われていた。「文節」というまとまりで日本語をとらえて、これをシンハラ語に転換するシステムを構築しようと岐阜大学が精力的に動いた。1994年に始まる日本語からシンハラ語への機械翻訳システム構築は、この大学の池田研究室で進められていた。今、そのときの資料を集めていたら、アジャンタ氏(会津大学)と岐阜大に留学していたスサンタ氏のヘーラト兄弟が自動翻訳システム構築への足がかりをつけ、2006年にサマンタ・テリッジャーゴダ氏と日本人研究者たちのグループがJaw/Sinhaleseという機械翻訳システムを完成したと、その足跡を辿ることができた。
 Jaw/Sinhaleseは「日本語をアジアと世界につなげる」という同大のJaw戦略の一環だ。  サマンタ氏は岐阜大とスリランカのNSFからJapanese-Sinhalese" machine translation system Jaw/Sinhalese 2006 という論文を出している。ここで彼らのシステムがかなりな精度で日本語をシンハラ語に変換する機能を発揮したと報じている。
 この開発の中心にあった研究者は機械翻訳システムJawの一般公開を予定していたが、研究者自身が同大を去り、シンハラ語Jaw開発は後継者が引き継いだものの、まだ、公にされていない。
 シンハラ語という稀有な言語が日本語から自動翻訳できるという触れ込みには興味を引かれる。それが「文節」機能を解してなされるという方法論にはさらに関心がわく。グーグルの日本語=シンハラ語変換は英語を介して行われるが、Jawは日本語からの直接変換でシンハラ語が生成される。おそらく機械翻訳としては画期的なことだ。

 サマンタ・テリッジャーゴダ氏らによる論文では日本語がスマートにシンハラ訳される例がいくつか紹介されている。たとえば、次のような文がJawによって生成された機械翻訳例として挙げられている。

この本は何度も読んだが、よくわかりません。
මේ පොත කීපවිටක්ම කියවුවත් තේරුම්ඩන්න අපහසියි.

これは逆接の例文で「読んだ」までの前句と[(私は)よくわかりません」の後文を繋ぐත් の例。
This type is for conjunctions such as ga (though), nara (if), to (and), ka (or), etc. In this case there is no change in the verb of the subordinate sentence and it is simply connected to the conjunction.

という解説が寄せられている。
こんな機械翻訳例も紹介されている。

彼にワインを飲ませたかったようだ
ඔහුට වයින් පොවන්න අවශ්‍යාවුනා වගෙයි
probably have him drink wine

これは使役文の機械翻訳例で、こう解説が続いている。

The "After-Verb" and "Before-Verb" indicate the elements to be put in just after the verb and before the verb respectively.

 まるで英語話者のためにシンハラ文を解説する日本語学習書という様子だが、論文前半に「文節分け」によるインプット・ツリーの紹介があるので機械翻訳システムのことだ。
 論文冒頭に次のくだりがある。

In this paper, a method is proposed to analyze the Sinhalese bunsetsu structure for machine translations. More than 20 kinds of verb inflection words (base parts of the verb bunsetsu) are defined and a set of function words that follows them is reorganized. Likewise, for the case inflection word of a noun, a new organization of function words is proposed. The case inflection is formed by a combination of a noun stem and a function word for case marking. 27 function words are isolated for case marking

 ここでシンハラ文を文節で捉えるという視点を新たに提起している。これはとても重要なポイントだと思う。文節生成機CaboCha/南瓜は文節をchunkのタグで囲むが、チャンクの塊は日本語にもシンハラ語にも同じように存在する。
 ここではさらに文の要素となる名詞と動詞の形態変化に関してそれがinflectionであると指摘する。  その上で、

Since Sinhalese and Japanese are very similar in this respect, in many cases there are one-to-one correspondences between Japanese bunsetsu and Sinhalese bunsetsu. But at the same time, these correspondences are not perfect. The translation of Japanese case markers (a leading group of function words after a noun) into Sinhalese is ambiguous; that is, one Japanese case marker often corresponds to several Sinhalese case markers

という視点に至るのだが、ここからはこの論文がinflectionと指摘した時点で呼び起こされるシンハラ古典文法、今ではシンハラ人学生の受験対策用となったシンハラ文語文法がJawの機械翻訳にパラダイムとして援用されてゆく。動詞も名詞もinflectionしてその解析がシンハラ語機械翻訳に応用される。その結果は膨大で煩雑な作業が待ち受けているはずだ。

 このことと関連するだろうと思われる翻訳不能の日本語文例が同論文に記されている。たとえば次の文だ。
 
私は彼に沢山お金を借りている。
මම ඔහුගෙන් මුදල් ගොඩක් ණයට ගනිමින් සිටිනවා

 Jaw/Sinhaleseでは「~ている」を~sitinawaaと訳してしまう。これが誤りだとヘーラト氏は指摘する。「借りている」はණයට ගනිමින් සිටිනවාと言えるような気がするのが日本語話者の気持ちだ。実際、ගනිමින් සිටිනවාの用例はභාවිතාවやවිසඳුම්の名詞には伺えるし、අපි ණය උගුලකට හසුකර ගනිමින් සිටිනවා(借金地獄にはまっている)のように「හසුකර~」では「~sitinawaa」と言っている。ණයට ගන්නවාの場合、「食べている」をකකා ඉන්නවාと表現するようなあからさまな用例対応がシンハラ語にはないにしてもシンハラ語のフレーズ用例を複数参照するだけでもこの混乱は防げるだろう。  ヘーラト氏はこの誤訳がネックだと指摘する。「借りている」は素直にණයට ගන්නවා でいいのだと彼の論文は記すのだ。
 この処理に関しては新たなパラダイムを提起しなくてはならないと思うし、それは日本語を母語とする研究者が主体となっても提起できるはずだ。

これをグーグルで機械翻訳すると…

 では、この日本語文をグーグルでシンハラ語翻訳してみる。

私は彼にたくさんのお金を借りている
මම ඔහුට මුදල් ගොඩක් ණය ගැතියි
I owe him a lot of money

となる。これを次のように言い換えると、こんな訳になる。

私は彼から沢山お金を借りている
මම ඔහුගෙන් විශාල මුදලක් ණයට ගන්නවා
I borrow a lot of money from him

 グーグル翻訳が問題にするのは「借りている」というモダリティにあるのではなくて、「彼に=彼から」の表現の対応にある。例題の日本語文にある「彼に(借りる)」は英文訳で「owe him」つまり「彼」が到達点になっている。「彼から(借りる)」は起点を示すのだから「from him」となる。
 「に」の使い方はなかなかけったいだ。「あいつに惚れている」「山里に住む」「大阪に行く」などなど。ほんとにみんな「に」でいいのかしら。使い方、間違っていない?
 グーグル翻訳が英語を介して日本語をシンハラ語転換するのなら、「彼→彼から」と助詞転換をして、つまり、機械にわかりやすいように、これを英語のfromに転換して、これをさらに日本語の「から」に置き換えて、「私は彼から沢山お金を借りている」としてやって、もう一度グーグル多言語翻訳機に諮ると、

මම ඔහුගෙන් විශාල මුදලක් ණයට ගන්නවා
わたし かれから 大きなお金 借りる/借りている

とシンハラ語の助詞をうまく当てはめてくれた。ඔහුට ではなくてඔහුගෙන් なら「彼に負債を負っている」ではなくて「彼から借りている」となり、本来の日本語の意味が生きる。何のことはない。こんなことならシンハラ口語文法のコーパスを思い切り増やしてやればいいだけだ。

グーグル翻訳、進化の途中

 「彼お金を借りる」のか、「彼からお金を借りる」のか。この場合、「に」と「から」は意味を違える。この部分の言語機能に関しては宮岸哲也氏がシンハラ語コーパスの詳細な一覧を認知言語学の視点で作っているので、日本語の助詞がシンハラ語ではどのような転換を図るか、容易に検証できるようになった。
 いまのところ、グーグル翻訳は完璧に程遠いので、宮岸コーパスを利用させていただいてのグーグル翻訳操作に取り組むことになってしまう。でも、これって簡単にネット上で操作できるからシンハラ語を通しての日本語再考にはとても役に立っている。シンハラ語の格接辞(ニパータ)と日本語の格助詞を対照すると融通無碍な日本語格助詞の使い回しが、ほんのちょっと規則的になる。
 ところで、グーグルの翻訳ソフトは転換した後のシンハラ語をきれいなネイティーブで発音してくれる。それに無料だし。うれしい。

 機械翻訳のシステム構築は膨大な量の資料の蓄積がなくてはとても叶うものではない。グーグル翻訳は日本語を書き込めば何かしらのシンハラ文を翻訳例として提供する。いくつかの翻訳パターンが可能なときは翻訳文を複数提示してくれる。また、翻訳に不満なときは適切な翻訳文を書き込むようにも指示してくる。wikiのように。
 え? 翻訳が間違っていたら正しいシンハラ文を書き込んでくれだって?
これって、シンハラ語と日本語の両方を知っている人しか利用できないじゃん、って、気づきます?
 そう、今のところ、グーグルのシンハラ語自動翻訳はそういう状態ですけど、使う人が多ければそれだけ学習能力も増大するし、使用者の中には誤訳を訂正してから自動翻訳機に差し戻して機械のシステム向上に協力してくれる人もいるし、そのうち、自前の言語情報をセンス・アップして適切な翻訳エンジンになることは間違いありません。翻訳マシンを使う人たちが使いながら作りあげる翻訳マシンって、何か夢がある。早くJaw/Sinhaleseもそうなって。

参考 Japanese-Sinhalese" machine translation system Jaw/Sinhalese J.Natn.Sci.Fondation Sri Lanka 2006 35(2) 81-96


シンハラ語QandA Index