主催: 一般社団法人 人工知能学会
会議名: 2024年度人工知能学会全国大会(第38回)
回次: 38
開催地: アクトシティ浜松+オンライン
開催日: 2024/05/28 - 2024/05/31
大規模言語モデル(LLM)のFine-Tuningには,Reinforcement Learning from Human Feedback(RLHF)が用いられる. RLHFは,(1) LLMの Supervised Fine-Tuning(SFT),(2) 人間の選好に基づくSFTモデルの生成文のランキング評価,(3) 選好データセットを用いた報酬モデルの学習,(4) 報酬モデルを用いたSFTモデルの強化学習,という4つのプロセスからなる. 人間による評価にはコストがかかるため,報酬モデルの学習には公開データセットや過去のデータを用いることが多い. これらのデータ生成モデルとSFTモデルは異なるため,報酬モデルの学習するデータと評価するデータに"分布シフト"が生じる. 本研究では,この影響を分析するため,SFTモデル以外に性能が異なる複数のLLMを用いて選好データセットを作成して、いくつかのシナリオでRLHFを行う.結果を比較することで,分布シフトが問題になる状況を明らかにする.分析の結果,報酬モデルに分布シフトがある場合にRLHFの性能を劣化させることを確認した.