主催: Webインテリジェンスとインタラクション研究会
会議名: WI2研究会
回次: 21
開催地: 11月2日:オンライン、11月4日~5日:アスティとくしま
開催日: 2025/11/02 - 2025/11/05
p. 92-99
大規模言語モデル(LLMs)は,事前学習済みデータに含まれる社会的バイアスを学習することが知られており,出力の社会的信頼性が問題となっている.本課題に対し,近年ではモデルマージ手法を用いてLLMのパラメータを編集し,社会的バイアスを低減する試みがなされている.しかし,多様なマージ手法のうち,いずれの手法が有効か体系的に比較検証した研究は存在しない.本研究では,7種類のマージ手法を対象に,GPTとLLaMA,Qwen系の13種類のLLMを用いて比較実験を実施する.2種類のデータセット(BBQ,HONEST)を用いてLLMの社会的バイアスを評価し,さらにSuperGLUEにより下流タスクの性能への影響を確認する.実験の結果,バイアス低減と下流タスク性能にはトレードオフが存在し,特に読解力や常識・因果推論を必要とするタスクにおいて,バイアスが低減されるほど性能が劣化することが確認された.マージ手法の中では,LinearやSLERP,Nearswapが一貫してバイアスを低減しつつ全体性能を維持し,特にSLERPが最もトレードオフの取れた結果を示した.
注意:本原稿には社会的に差別的と捉えられうる例示が含まれます.