電子情報通信学会 - IEICE会誌 試し読みサイト
© Copyright IEICE. All rights reserved.
|
解説
人間に迫りつつある機械翻訳をどうやって評価するか?
Challenges for the Evaluation of Machine Translation Approaching Human Parity
abstract
近年,ニューラルネットを用いた機械翻訳の研究が進み,機械翻訳の精度が大幅に向上した.コンピュータが囲碁の世界チャンピオンに勝ったことは記憶に新しいが,機械翻訳の分野でも,コンピュータと人間のどちらが優れているかが議論になり始めた.機械翻訳の研究者は,翻訳対象となる言語対と分野を限定すれば,コンピュータが一つの文を翻訳する能力は人間に匹敵しつつあるが,現時点では文脈を考慮して翻訳する能力は人間を超えていないと考えている.本稿では機械翻訳の精度や文脈を考慮して翻訳する能力をどうやって評価するかを解説する.
キーワード:ニューラル機械翻訳,直接評価,BLEU,文脈翻訳テスト
Web上の機械翻訳サービスが2016年の秋頃から急に賢くなったことにお気付きの方は多いと思う.技術者である筆者の感覚では,今の機械翻訳は普通の高校生(少なくとも高校生の頃の筆者)よりもずっと英作文が上手である.
2014年頃に考案されたニューラル機械翻訳(ニューラル翻訳,NMT: Neural Machine Translation)と呼ばれる新しい機械翻訳技術は,それまで主流だった統計的機械翻訳(統計翻訳,SMT: Statistical Machine Translation)の精度を上回り,僅か3年で実用化された.2016年9月にリリースされたGoogleのニューラル機械翻訳は,従来の統計的機械翻訳に比べて誤りを半分にし,比較的近い言語対である英語とスペイン語及び英語とフランス語の翻訳において人間による翻訳の精度に近づいたと主張した(1).2018年にMicrosoftは,比較的遠い言語対である中国語から英語への翻訳においてニューラル機械翻訳の精度が「人間による翻訳に匹敵する(human parity)」と主張し(2),研究者の間で大きな波紋を呼んだ.
ニューラル機械翻訳は,母語話者(native speaker)並みに流ちょうな訳文を生成する反面,訳文が原文の意味を忠実に再現しないことがあるという少し困った性質を持っている.また翻訳方式とは別の問題として,これまでの機械翻訳システムは文を基本的な入力の単位としていたので,たとえ一つ一つの文の翻訳精度が人間に匹敵したとしても,文書や会話のような複数の文から構成されるテキストを翻訳すると,文脈や状況を考慮しないために照応関係がおかしかったり,訳語に一貫性がないなどの問題が生じる.
本稿では,人間による翻訳に迫りつつある機械翻訳の精度をどうやって評価するか,及び,機械翻訳が文脈や状況を理解する能力をどうやって評価するかについて最近の研究動向を解説する.
図1に最も基本的なニューラル機械翻訳モデルである再帰的ニューラルネットワーク(RNN: Recurrent Neural Network)を用いたエンコーダデコーダモデル(符号器・復号器モデル,encoder-decoder model)を示す(3).エンコーダのRNNは入力文の単語を先頭から一つずつ読んで,直前の内部状態と単語を入力として内部状態を更新することを繰り返し,文末記号eosを読んだ後の内部状態を文の意味表現とする.デコーダのRNNは文の意味表現を初期状態として,直前の内部状態と直前に出力した単語を入力として内部状態を更新して単語を一つずつ出力することを文末記号eosを出力するまで繰り返す.
続きを読みたい方は、以下のリンクより電子情報通信学会の学会誌の購読もしくは学会に入会登録することで読めるようになります。 また、会員になると豊富な豪華特典が付いてきます。
電子情報通信学会 - IEICE会誌はモバイルでお読みいただけます。
電子情報通信学会 - IEICE会誌アプリをダウンロード