RLHF を用いたゲームデータに関する LLM の学習手法の検討

村田 知弥; 森 直樹; 岡田 真

doi:10.11517/pjsai.JSAI2024.0_4A1GS602

第38回 (2024)

セッションID: 4A1-GS-6-02

DOI https://doi.org/10.11517/pjsai.JSAI2024.0_4A1GS602

会議情報

主催: 一般社団法人人工知能学会

会議名: 2024年度人工知能学会全国大会（第38回）

回次: 38

開催地: アクトシティ浜松＋オンライン

開催日: 2024/05/28 - 2024/05/31

RLHF を用いたゲームデータに関する LLM の学習手法の検討

*村田知弥, 森直樹, 岡田真

著者情報

キーワード: 大規模言語モデル, アライメント, RLHF, BERT

会議録・要旨集フリー

詳細

抄録

近年，人工知能分野における大規模言語モデル（Large Language Model : LLM）の進展は著しく，様々な自然言語処理タスクで優れた性能を発揮している．その中で LLM の価値観や目的を人間と合致させるため，アライメント（Alignment）の調整が必要とされるようになった．このようなアライメント調整手法として，人間からのフィードバックを用いた強化学習である Reinforcement Learning from Human Feedback (RLHF) が注目されている．そこで本研究では，ゲームシナリオデータとして恋愛シミュレーションゲーム「ときめきメモリアル３～約束のあの場所で～」のシナリオを用いて，RLHF を用いた LLM の学習手法について検討した．具体的には，日本語 5 文字に続く文章をキャラクターの性格に合わせて生成する実験をした．主観的な評価ではあるが，各キャラクターに適合した文章が生成できることが確認できた．

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）