知能と情報
Online ISSN : 1881-7203
Print ISSN : 1347-7986
ISSN-L : 1347-7986
原著論文
サマリレベルでの画像の利用法を用いたマルチモーダル翻訳手法の提案
冨山 翔司味曽野 雅史鈴木 雅大落合 桂一岩澤 有祐松尾 豊
著者情報
ジャーナル フリー

2026 年 38 巻 1 号 p. 588-598

詳細
抄録

本論文では,マルチモーダルニューラル翻訳におけるサマリレベルの画像の利用方法を提案する.従来のモデルでは,次の予測対象のトークンに関連する画像情報のみを抽出して利用することが一般的であったが,これが過剰翻訳を引き起こす可能性があることを明らかにする.この問題に対処するため,本研究では画像情報を文全体(サマリ)の特徴量のモデリングに利用し,これをデコーダに統合する新しいモデルであるMVNMTを提案する.MVNMTは,変分オートエンコーダを用いてテキストと画像の情報から共通の潜在表現を抽出する.本研究の実験結果は,MVNMTが従来のテキストのみを用いた翻訳モデルに比べて翻訳評価指標で上回り,かつ,トークンレベルの画像利用法を用いたMNMTモデルに比べて過剰翻訳の問題を効果的に緩和できることを示す.

著者関連情報
© 2026 日本知能情報ファジィ学会
前の記事 次の記事
feedback
Top