画像キャプション生成に基づく描画内容に即した駄洒落文の選択手法

浅野 歴; 谷津 元樹; 森田 武史

doi:10.11517/pjsai.JSAI2022.0_4D3GS601

抄録

ソーシャルロボットが画像入力より得られる周辺状況に基づいた発話を行う際，駄洒落等のユーモアを付加できれば，エンターテインメント性が向上すると考えられる．そのため，本研究では既存のキャプション生成モデルやオブジェクト検出を活用し画像に合った駄洒落文を選択するためのランキング手法を提案する．提案手法では， STAIR Captionデータセットより学習した日本語キャプション生成モデルよりプレーンキャプションを生成し、得られたキャプションから重要語及び他の形態素を抽出する．このようにして得られた単語に対して，物体検出及び重要語抽出の結果の語がより大きな値を持つように重み付けする．出力として駄洒落データベースにおいて重みの和が最大となる駄洒落文を選択する．主観評価実験では，MSCOCOデータセットからランダムに選択した10枚の画像に対して提案手法を用いて各画像に合った駄洒落文を選択し，10名の被験者に「駄洒落文が画像に対して適切であるか」を質問し，5段階評価を行ってもらった．その結果，評価値の平均は 3.11であり「どちらともいえない」を若干上回る結果が得られた．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）