スパースオートエンコーダを用いた多言語大規模言語モデルにおけるジェンダーバイアスの調査

阿部 桃大; 韓 南琦; 宮尾 祐介

doi:10.11517/pjsai.JSAI2025.0_3L6OS3205

抄録

本研究の目的は、ジェンダーバイアスが多言語大規模言語モデル(多言語LLM)において英語と日本語に対しどのように組み込まれているかを調査することである。 LLMが学習する言語に応じてジェンダーバイアスの現れ方も異なると予想されるが、多言語LLMにおいて各言語に対しジェンダーバイアスがどのように学習され、数値化されるのかは明らかになっていない。本研究では多言語LLMにスパースオートエンコーダ(SAE)を用いて、英語と日本語のジェンダーバイアスに対応する特徴量を抽出し、言語間でそれらが同一なのかを調査する。具体的には、ジェンダーバイアスの観点でステレオタイプ的な文と反ステレオタイプ的な文を多言語LLMに与え、SAEを用いてLLMの中間層のニューロンの発火を解釈可能性の高い特徴量の発火に変換した。そして、変換した特徴量の中で2種類の文で異なる活性化のパターンを示すものを探索して各言語での特徴量の発火を比較した。実験の結果から、多言語LLM内部においてジェンダーバイアスは言語に応じて異なる形で表現されていることが示唆された。

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）