人工知能学会全国大会論文集
Online ISSN : 2758-7347
第39回 (2025)
セッションID: 1L3-OS-34-04
会議情報

既存の評価モデルを転用したLLMアライメントフィルタ設計
*宮岡 佑弥井上 正樹
著者情報
会議録・要旨集 フリー

詳細
抄録

本研究ではアライメントのための新しい手法を提案する.本手法では,既存の評価モデルを用いてアライメントフィルタを設計し,LLMのテキスト生成過程に組み込むことで,所望の目的に沿ったテキスト生成を可能にする. アライメントに関する先行研究では,強化学習などのLLMを再学習するアプローチが主流である.それに対し,本手法ではアライメントに関わる機構が外付けになっており,LLM自体を再学習することはない.本手法の強みは,任意の評価モデルをアライメントフィルタの設計に使用できること,同じアライメントフィルタを任意のLLMに適用できることである.その他,アライメントに関わる機構とLLMが分離されていることから,説明可能性の向上にも寄与している. 実験では、テキスト感情を分析するBERTモデルからアライメントフィルタを設計する.これをLlama 3に組み込み,常に肯定的なテキストが生成されることを可能とした.

著者関連情報
© 2025 人工知能学会
前の記事 次の記事
feedback
Top