主催: 一般社団法人 人工知能学会
会議名: 2025年度人工知能学会全国大会(第39回)
回次: 39
開催地: 大阪国際会議場+オンライン
開催日: 2025/05/27 - 2025/05/30
大規模言語モデル(LLM)のアライメントにおいて、人間の選好に基づく直接選好最適化(DPO)は文章生成タスクの性能向上に有効であるが、高い計算コストが課題である。本研究では、計算資源が制約される環境での効率的なLLMのアライメントの実現を念頭に、計算コストを削減してDPOを実施するための、より優先度の高いデータから学習する新しい手法を提案する。具体的には、データサンプルごとにスコアを計算し、スコアの高い順にデータを選択することで、学習ステップ数を限定した環境でも効果的な学習を実現する。実験では、事前学習済みモデルと選好データセットを用いて一定のステップの学習を行い、外部報酬モデルによる評価を行った。その結果、提案手法は従来の方法と比較して同じ学習ステップ間の比較においてより効率的に学習を進めることを確認した。