本稿では,マルチモーダルニューラル機械翻訳 (MNMT) のための教師付き視覚的注意機構を提案する.提案手法は,人手で付与された画像内の領域と単語との対応関係を視覚的注意の教師データとして与え,これらの対応関係を制約にして直接視覚的注意機構の学習を行う.教師なしで学習される従来の視覚的注意機構に比べてより正確に単語と画像領域との関係性を捉えることが期待される.実験では Multi30k データセットを用いた英独・独英翻訳,Flickr30k Entities JP データセットを用いた英日・日英翻訳を行い,提案する教師付き視覚的注意機構によって Transformer ベースの MNMT モデルの性能が改善することが確認できた.また,教師付きの言語間注意機構と組み合わせることにより,さらに性能が改善され,最大で BLEU スコアが 1.61 ポイント,METEOR スコアが 1.7 ポイント向上することが確認できた.