2025 年 32 巻 1 号 p. 91-113
大規模言語モデルの性能向上に伴い,モデルの生成内容の誤りの検知や対策が喫緊の課題となっている.言語モデル生成の誤り検知の手段の一つとして,生成時に得られる情報に基づく出力内容の確信度推定がある.既存の確信度推定手法ではモデルの出力や内部状態が用いられている一方で,言語モデルの訓練データにアクセス可能な設定での確信度推定および評価については十分に検討されていない.本研究では,学習済み言語モデルの出力の確信度推定における訓練データの有用性を検討するため,中規模の言語モデルを学習し,訓練データ全文からなるデータストアを構築し,訓練データに基づく複数の確信度推定方法を検討・評価した.言語モデルの知識評価タスクを用いた実験の結果,モデルが出力する尤度と訓練データにおける関連事例の有無の情報を組み合わせて用いることで,訓練データを用いない場合と比べて確信度推定の精度を改善できることを確認した.