主催: 一般社団法人 人工知能学会
会議名: 2024年度人工知能学会全国大会(第38回)
回次: 38
開催地: アクトシティ浜松+オンライン
開催日: 2024/05/28 - 2024/05/31
近年,人工知能分野における大規模言語モデル(Large Language Model : LLM)の進展は著しく,様々な自然言語処理タスクで優れた性能を発揮している.その中で LLM の価値観や目的を人間と合致させるため,アライメント(Alignment)の調整が必要とされるようになった.このようなアライメント調整手法として,人間からのフィードバックを用いた強化学習である Reinforcement Learning from Human Feedback (RLHF) が注目されている. そこで本研究では,ゲームシナリオデータとして恋愛シミュレーションゲーム「ときめきメモリアル3~約束のあの場所で~」のシナリオを用いて,RLHF を用いた LLM の学習手法について検討した.具体的には,日本語 5 文字に続く文章をキャラクターの性格に合わせて生成する実験をした.主観的な評価ではあるが,各キャラクターに適合した文章が生成できることが確認できた.