Webインテリジェンスとインタラクション研究会 予稿集
Online ISSN : 2758-2922
第21回研究会
会議情報

セッション5:LLM応用(2)
LLMの社会的バイアス低減に向けたモデルマージ手法の有効性検証
白藤 大幹斉藤 辰彦木村 泰知
著者情報
会議録・要旨集 フリー

p. 92-99

詳細
抄録

大規模言語モデル(LLMs)は,事前学習済みデータに含まれる社会的バイアスを学習することが知られており,出力の社会的信頼性が問題となっている.本課題に対し,近年ではモデルマージ手法を用いてLLMのパラメータを編集し,社会的バイアスを低減する試みがなされている.しかし,多様なマージ手法のうち,いずれの手法が有効か体系的に比較検証した研究は存在しない.本研究では,7種類のマージ手法を対象に,GPTとLLaMA,Qwen系の13種類のLLMを用いて比較実験を実施する.2種類のデータセット(BBQ,HONEST)を用いてLLMの社会的バイアスを評価し,さらにSuperGLUEにより下流タスクの性能への影響を確認する.実験の結果,バイアス低減と下流タスク性能にはトレードオフが存在し,特に読解力や常識・因果推論を必要とするタスクにおいて,バイアスが低減されるほど性能が劣化することが確認された.マージ手法の中では,LinearやSLERP,Nearswapが一貫してバイアスを低減しつつ全体性能を維持し,特にSLERPが最もトレードオフの取れた結果を示した.

注意:本原稿には社会的に差別的と捉えられうる例示が含まれます.

著者関連情報
2025 この論文のすべての権利と著作権は著者に帰属します。
前の記事 次の記事
feedback
Top