2017 年 2017 巻 AM-17 号 p. 04-
周辺状況を視覚的に理解した上で対話する対話システムの開発を目的として,深層学習を用いた日本語キャプション生成システムDeep Watcherおよび,人物中心のキャプション付き画像データセットを作成した.キャプションの生成にはCNNとLSTMを用いたShow and Tellモデルを使用した.またキャプション内容と5つの特徴項目について人手による一致率の評価を行った.結果,生成されたキャプションの内容の一致率は41%,特徴項目は性別が最も高く87%であった.キャプション内容の一致率は過学習により高くない結果となったが,性別の特徴項目については対話システムへの応用の可能性を示すことができた.