選好データの優先度付けによる効率的なLLMのアライメント

高橋 克望; 新 恭兵; 包 含; 竹内 孝; 鹿島 久嗣; 陣内 佑; 森村 哲郎

doi:10.11517/pjsai.JSAI2025.0_3G1GS605

第39回 (2025)

セッションID: 3G1-GS-6-05

DOI https://doi.org/10.11517/pjsai.JSAI2025.0_3G1GS605

会議情報

主催: 一般社団法人人工知能学会

会議名: 2025年度人工知能学会全国大会（第39回）

回次: 39

開催地: 大阪国際会議場＋オンライン

開催日: 2025/05/27 - 2025/05/30

選好データの優先度付けによる効率的なLLMのアライメント

*高橋克望, 新恭兵, 包含, 竹内孝, 鹿島久嗣, 陣内佑, 森村哲郎

著者情報

キーワード: ファインチューニング, 人間のフィードバックによる強化学習, 大規模言語モデル

会議録・要旨集フリー

詳細

抄録

大規模言語モデル（LLM）のアライメントにおいて、人間の選好に基づく直接選好最適化（DPO）は文章生成タスクの性能向上に有効であるが、高い計算コストが課題である。本研究では、計算資源が制約される環境での効率的なLLMのアライメントの実現を念頭に、計算コストを削減してDPOを実施するための、より優先度の高いデータから学習する新しい手法を提案する。具体的には、データサンプルごとにスコアを計算し、スコアの高い順にデータを選択することで、学習ステップ数を限定した環境でも効果的な学習を実現する。実験では、事前学習済みモデルと選好データセットを用いて一定のステップの学習を行い、外部報酬モデルによる評価を行った。その結果、提案手法は従来の方法と比較して同じ学習ステップ間の比較においてより効率的に学習を進めることを確認した。

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）