人工知能学会全国大会論文集
Online ISSN : 2758-7347
第39回 (2025)
セッションID: 3G1-GS-6-05
会議情報

選好データの優先度付けによる効率的なLLMのアライメント
*高橋 克望新 恭兵包 含竹内 孝鹿島 久嗣陣内 佑森村 哲郎
著者情報
会議録・要旨集 フリー

詳細
抄録

大規模言語モデル(LLM)のアライメントにおいて、人間の選好に基づく直接選好最適化(DPO)は文章生成タスクの性能向上に有効であるが、高い計算コストが課題である。本研究では、計算資源が制約される環境での効率的なLLMのアライメントの実現を念頭に、計算コストを削減してDPOを実施するための、より優先度の高いデータから学習する新しい手法を提案する。具体的には、データサンプルごとにスコアを計算し、スコアの高い順にデータを選択することで、学習ステップ数を限定した環境でも効果的な学習を実現する。実験では、事前学習済みモデルと選好データセットを用いて一定のステップの学習を行い、外部報酬モデルによる評価を行った。その結果、提案手法は従来の方法と比較して同じ学習ステップ間の比較においてより効率的に学習を進めることを確認した。

著者関連情報
© 2025 人工知能学会
前の記事 次の記事
feedback
Top