人工知能学会第二種研究会資料
Online ISSN : 2436-5556
マルチモーダル大規模言語モデルと画像キャプションに基づく描画内容に即した併置型駄洒落の認識
浅野 歴森田 武史鵜飼 孝典江上 周作福田 賢一郎
著者情報
研究報告書・技術報告書 フリー

2024 年 2023 巻 SWO-062 号 p. 11-

詳細
抄録

本研究では,駄洒落文スコア,ランダムフォレスト(RF),マルチモーダル大規模言語モデルGPT-4Vを用いて,駄洒落データベース内の併置型駄洒落が入力画像の描画内容に即しているか否かを認識する手法を提案する.提案手法を評価するために,MS COCOの画像と駄洒落データベース内の併置型駄洒落の組に対して,併置型駄洒落が画像の描画内容に即しているか否かを評価し,データセットを構築した.MS COCOの画像3,500枚を対象に,各画像に対し駄洒落文スコアの高い上位5件の駄洒落を分析した結果,駄洒落文スコアを算出するために提案したどの指標も駄洒落文認識に寄与していた.構築したデータセットを対象に,RFとGPT-4Vを用いた手法を評価した.RFを用いた手法の正解率は0.949となり,描画内容に即していない併置型駄洒落文は高精度に認識できた.GPT-4Vを用いた手法は,適合率,再現率,F値において,RFを用いた手法の精度を上回った.しかし,RFとGPT-4Vを用いた手法の再現率はそれぞれ0.127,0.280と低く,さらなる認識精度の改善が必要であることが明らかとなった.

著者関連情報
© (一社)人工知能学会
前の記事 次の記事
feedback
Top