人工知能学会全国大会論文集
Online ISSN : 2758-7347
第39回 (2025)
セッションID: 3L6-OS-32-05
会議情報

スパースオートエンコーダを用いた多言語大規模言語モデルにおけるジェンダーバイアスの調査
*阿部 桃大韓 南琦宮尾 祐介
著者情報
会議録・要旨集 フリー

詳細
抄録

本研究の目的は、ジェンダーバイアスが多言語大規模言語モデル(多言語LLM)において英語と日本語に対しどのように組み込まれているかを調査することである。 LLMが学習する言語に応じてジェンダーバイアスの現れ方も異なると予想されるが、多言語LLMにおいて各言語に対しジェンダーバイアスがどのように学習され、数値化されるのかは明らかになっていない。 本研究では多言語LLMにスパースオートエンコーダ(SAE)を用いて、英語と日本語のジェンダーバイアスに対応する特徴量を抽出し、言語間でそれらが同一なのかを調査する。 具体的には、ジェンダーバイアスの観点でステレオタイプ的な文と反ステレオタイプ的な文を多言語LLMに与え、SAEを用いてLLMの中間層のニューロンの発火を解釈可能性の高い特徴量の発火に変換した。 そして、変換した特徴量の中で2種類の文で異なる活性化のパターンを示すものを探索して各言語での特徴量の発火を比較した。 実験の結果から、多言語LLM内部においてジェンダーバイアスは言語に応じて異なる形で表現されていることが示唆された。

著者関連情報
© 2025 人工知能学会
前の記事 次の記事
feedback
Top