サマリレベルでの画像の利用法を用いたマルチモーダル翻訳手法の提案

冨山 翔司; 味曽野 雅史; 鈴木 雅大; 落合 桂一; 岩澤 有祐; 松尾 豊

doi:10.3156/jsoft.38.1_588

抄録

本論文では，マルチモーダルニューラル翻訳におけるサマリレベルの画像の利用方法を提案する．従来のモデルでは，次の予測対象のトークンに関連する画像情報のみを抽出して利用することが一般的であったが，これが過剰翻訳を引き起こす可能性があることを明らかにする．この問題に対処するため，本研究では画像情報を文全体（サマリ）の特徴量のモデリングに利用し，これをデコーダに統合する新しいモデルであるMVNMTを提案する．MVNMTは，変分オートエンコーダを用いてテキストと画像の情報から共通の潜在表現を抽出する．本研究の実験結果は，MVNMTが従来のテキストのみを用いた翻訳モデルに比べて翻訳評価指標で上回り，かつ，トークンレベルの画像利用法を用いたMNMTモデルに比べて過剰翻訳の問題を効果的に緩和できることを示す．

著者関連情報

お気に入り & アラート

閲覧履歴

前身誌

日本ファジィ学会誌

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）