LLMの社会的バイアス低減に向けたモデルマージ手法の有効性検証

白藤 大幹; 斉藤 辰彦; 木村 泰知

doi:10.57413/wii.21.0_92

抄録

大規模言語モデル（LLMs）は，事前学習済みデータに含まれる社会的バイアスを学習することが知られており，出力の社会的信頼性が問題となっている．本課題に対し，近年ではモデルマージ手法を用いてLLMのパラメータを編集し，社会的バイアスを低減する試みがなされている．しかし，多様なマージ手法のうち，いずれの手法が有効か体系的に比較検証した研究は存在しない．本研究では，7種類のマージ手法を対象に，GPTとLLaMA，Qwen系の13種類のLLMを用いて比較実験を実施する．2種類のデータセット（BBQ，HONEST）を用いてLLMの社会的バイアスを評価し，さらにSuperGLUEにより下流タスクの性能への影響を確認する．実験の結果，バイアス低減と下流タスク性能にはトレードオフが存在し，特に読解力や常識・因果推論を必要とするタスクにおいて，バイアスが低減されるほど性能が劣化することが確認された．マージ手法の中では，LinearやSLERP，Nearswapが一貫してバイアスを低減しつつ全体性能を維持し，特にSLERPが最もトレードオフの取れた結果を示した．

注意:本原稿には社会的に差別的と捉えられうる例示が含まれます．

著者関連情報

2025 この論文のすべての権利と著作権は著者に帰属します。

お気に入り & アラート

閲覧履歴

「他者との関わり」を意識させたライティング指導の工夫～中学校英語科 1 学年での取り組みの一考察～

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）