2019年11月3日日曜日

『AI翻訳が人間超え 言葉の壁崩壊へ(日経エレクトロニクス2019.9)』

  • 統計機械翻訳
  • ニューラル機械翻訳
  • 逆翻訳
  • ゼロショット翻訳
統計機械翻訳
SMT(Statistical Machine Translation)
  • 単語やフレーズごとに訳し、統計学的に並び替える。

ニューラル機械翻訳
NMT(Neural Machine Translation)
  • 1文ごと入力し、圧縮(=抽象化=意味解釈)し、翻訳先の言語に復元する。
  • DNN(Deep Neual Network)を使用

    エンコーダー・・・入力文章を圧縮・抽象化

    デコーダー・・・翻訳先の言語に復元
  • DNNの種類
    • RNN(Recurrent Neural Network)系
      • 2年間ほど流行る。
      • 途中の出力を再度入力側へフィードバックする仕組みを持つ。
      • 改良版RNN → LSTM
      • 注意機構付き双方向RNN
    • CNN(Convolutional Neural Network)系
      • 1ヶ月で廃れる。
      • ConvS2S
      • SliceNet
    • トランスフォーマー・モデル
      • 2017.6にGoogleが発表。いまの主流。
      • 注意機構が主役のDNN。
      • 自己注意(Self-Attention)




逆翻訳(Back Translation)
  • 日本語から英語に翻訳した文を、日本語に再翻訳して元の原文と比較することで、 翻訳結果の確認や翻訳精度の向上を図る技術。
  • 擬似的な対訳データを量産。

ゼロショット翻訳
  • 英語と日本語の対訳を学習
    英語と中国語の対訳を学習

    対訳を学習していない、日本語と中国の翻訳を可能にする