マルチモーダル大規模言語モデルによる多人数会話の次話者予測の分析

森 大河; 井上 昂治; ララ ディベッシュ; 越智 景子; 河原 達也

doi:10.11517/jsaislud.106.0_82

抄録

本研究では、最新のマルチモーダル大規模言語モデル（MLLM）が、多人数会話における次話者をどのように予測するかを分析した。実験および定性的分析の結果、MLLMは言語的文脈とモデル内部に内在化された知識に基づいて「次に話し始める参与者」を推論できる一方で、現在の話し手によって次話者が選択されておらず、次話者が一意に定まらない場合であっても、特定の一人の参加者を次話者として過剰に予測するバイアスを示すことが明らかになった。しかし、このバイアスは、順番交代規則に関する知識をプロンプトで明示的に与えることで軽減できることが示された。また、順番末における参与者の画像情報は、予測精度の向上に寄与する場合もあれば、誤った判断を引き起こす場合もあり、全体としては明確な効果は確認されなかった。

著者関連情報

お気に入り & アラート

閲覧履歴

発行機関からのお知らせ

PDF閲覧時に認証を求められる記事がございます（発行後1年間）が，研究会登録メンバーは無料で閲覧可能です．認証のための購読者番号やパスワードは会員マイページにログインし「お知らせ」にてご確認下さい．メンバー以外の方は，storesにて購入いただけます．

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）