会議名: 第106回言語・音声理解と対話処理研究会
回次: 106
開催地: 早稲田大学 早稲田キャンパス8号館B107
開催日: 2026/03/03 - 2026/03/04
p. 82-87
本研究では、最新のマルチモーダル大規模言語モデル(MLLM)が、多人数会話における次話者をどのように予測するかを分析した。実験および定性的分析の結果、MLLMは言語的文脈とモデル内部に内在化された知識に基づいて「次に話し始める参与者」を推論できる一方で、現在の話し手によって次話者が選択されておらず、次話者が一意に定まらない場合であっても、特定の一人の参加者を次話者として過剰に予測するバイアスを示すことが明らかになった。しかし、このバイアスは、順番交代規則に関する知識をプロンプトで明示的に与えることで軽減できることが示された。また、順番末における参与者の画像情報は、予測精度の向上に寄与する場合もあれば、誤った判断を引き起こす場合もあり、全体としては明確な効果は確認されなかった。