心理学的手法による大規模言語モデルの公平性評価

鈴木 淳哉; 福島 誠

doi:10.11517/pjsai.JSAI2025.0_3F4OS42a03

抄録

大規模言語モデル（LLM）の公平性を確保することは、AIガバナンスにおける課題の一つである. 本稿では、既存研究で心理学の手法を用いて発見されたLLMの特性を活用し、新たな公平性の指標の可能性を見出すことを目的とする.その特性の一つとして、特定の性別や人種を模倣する指示をLLMに与えた場合、指示内容から特定の質問に対する正答率に想定外の差異がでることが示されている. この特性を利用することで、LLMが内在的に持つ隠れたステレオタイプを測定する指標として活用できる可能性を示す. また別の特性として、STICSAスコアが高い（「不安」な状態の）場合に、LLMの偏見を持った回答をする割合も高くなるというが示されている. この関係性を基に、多様な入力に対してSTICSAスコアを偏見評価指標として活用できる可能性を示す. 本稿の結論として、これらのLLMに関する心理学的特性をAIガバナンスにおける公平性評価指標として適用することの意義を論じるとともに、その可能性を見出す.

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）