主催: 一般社団法人 人工知能学会
会議名: 2025年度人工知能学会全国大会(第39回)
回次: 39
開催地: 大阪国際会議場+オンライン
開催日: 2025/05/27 - 2025/05/30
本研究の目的は、ジェンダーバイアスが多言語大規模言語モデル(多言語LLM)において英語と日本語に対しどのように組み込まれているかを調査することである。 LLMが学習する言語に応じてジェンダーバイアスの現れ方も異なると予想されるが、多言語LLMにおいて各言語に対しジェンダーバイアスがどのように学習され、数値化されるのかは明らかになっていない。 本研究では多言語LLMにスパースオートエンコーダ(SAE)を用いて、英語と日本語のジェンダーバイアスに対応する特徴量を抽出し、言語間でそれらが同一なのかを調査する。 具体的には、ジェンダーバイアスの観点でステレオタイプ的な文と反ステレオタイプ的な文を多言語LLMに与え、SAEを用いてLLMの中間層のニューロンの発火を解釈可能性の高い特徴量の発火に変換した。 そして、変換した特徴量の中で2種類の文で異なる活性化のパターンを示すものを探索して各言語での特徴量の発火を比較した。 実験の結果から、多言語LLM内部においてジェンダーバイアスは言語に応じて異なる形で表現されていることが示唆された。