主催: 一般社団法人 人工知能学会
会議名: 2024年度人工知能学会全国大会(第38回)
回次: 38
開催地: アクトシティ浜松+オンライン
開催日: 2024/05/28 - 2024/05/31
大規模言語モデル(LLM)のファインチューニングには,人間のフィードバックからの強化学習(RLHF)が広く用いられている.しかし,RLHFでは報酬モデルの学習を行うが,一般に推定誤差が残るため,報酬モデルへの過剰適応が問題になる.これはRLHFの適用を困難にする要因となっている.本研究では,この問題に対処するため,多様な報酬モデルを複数作成し、報酬の評価を悲観的に行うアプローチを提案する.具体的には,報酬モデル間の出力のばらつきから,報酬計算の確信度を評価し,確信度が低いときには悲観的に報酬を評価する.アプローチの有効性を実験的に検証する.