人工知能学会全国大会論文集
Online ISSN : 2758-7347
第38回 (2024)
セッションID: 4Xin2-13
会議情報

悲観的なRLHF
*森村 哲郎坂本 充生
著者情報
会議録・要旨集 フリー

詳細
抄録

大規模言語モデル(LLM)のファインチューニングには,人間のフィードバックからの強化学習(RLHF)が広く用いられている.しかし,RLHFでは報酬モデルの学習を行うが,一般に推定誤差が残るため,報酬モデルへの過剰適応が問題になる.これはRLHFの適用を困難にする要因となっている.本研究では,この問題に対処するため,多様な報酬モデルを複数作成し、報酬の評価を悲観的に行うアプローチを提案する.具体的には,報酬モデル間の出力のばらつきから,報酬計算の確信度を評価し,確信度が低いときには悲観的に報酬を評価する.アプローチの有効性を実験的に検証する.

著者関連情報
© 2024 人工知能学会
前の記事 次の記事
feedback
Top