2025 年 32 巻 2 号 p. 480-496
大規模言語モデル (Large Language Model; LLM) は言語生成タスクの評価器として用いられている.ところが,ある文章の意味を変えずに語順や構造を変更した文章を作ると,LLM が計算する尤度が大きく変化することがある.そのため,LLM 評価器 (LLM-as-a-Judge) には,尤度が低い文章を不当に低く,尤度が高い文章を不当に高く評価する尤度バイアスが存在する可能性がある.本研究では,尤度バイアスが LLM 評価器の性能を低下させることを明らかにし,Few-shot によるバイアス緩和手法を提案する.実験では,複数の LLM が data-to-text タスクと文法誤り訂正タスクで尤度バイアスを持つ可能性を示した.また,バイアスの強い事例を特定し Few-shot 事例として用いることで,バイアスの緩和に成功した.さらに,尤度バイアスの緩和によって LLM 評価器の評価性能(人手評価との順位相関係数)が向上することを確認し,提案手法の有効性を示した.