人工知能学会全国大会論文集
Online ISSN : 2758-7347
第38回 (2024)
セッションID: 1B3-GS-2-02
会議情報

RLHFにおける分布シフトの評価
*坂本 充生森村 哲郎陣内 佑阿部 拳之蟻生 開人
著者情報
会議録・要旨集 フリー

詳細
抄録

大規模言語モデル(LLM)のFine-Tuningには,Reinforcement Learning from Human Feedback(RLHF)が用いられる. RLHFは,(1) LLMの Supervised Fine-Tuning(SFT),(2) 人間の選好に基づくSFTモデルの生成文のランキング評価,(3) 選好データセットを用いた報酬モデルの学習,(4) 報酬モデルを用いたSFTモデルの強化学習,という4つのプロセスからなる. 人間による評価にはコストがかかるため,報酬モデルの学習には公開データセットや過去のデータを用いることが多い. これらのデータ生成モデルとSFTモデルは異なるため,報酬モデルの学習するデータと評価するデータに"分布シフト"が生じる. 本研究では,この影響を分析するため,SFTモデル以外に性能が異なる複数のLLMを用いて選好データセットを作成して、いくつかのシナリオでRLHFを行う.結果を比較することで,分布シフトが問題になる状況を明らかにする.分析の結果,報酬モデルに分布シフトがある場合にRLHFの性能を劣化させることを確認した.

著者関連情報
© 2024 人工知能学会
前の記事 次の記事
feedback
Top