AI安全性のための日本語徳倫理データセットの作成

竹下 昌志; ジェプカ ラファウ; 荒木 健治

doi:10.11517/pjsai.JSAI2024.0_3G1GS1104

抄録

大規模言語モデルなどの一部のAIモデルは人間にとって有害な生成をすることで知られている。また将来のAIモデルが、我々の倫理を理解し、適切に振る舞うためのAIアライメント研究がなされている。しかしこれらの研究の多くは英語で行われており、日本語での研究は少ない。そこで本研究ではAIの安全性に対処するためのデータセットとして、規範倫理学の主要な立場である徳倫理を参照したデータセットを作成する。既存の英語の徳倫理データセットの作成方法と同様の構築方法によって新しく日本語のデータセットを作成する。作成されたデータセットは約2万件からなり、ある行為を表す文とその行為に対応する性格特性用語を正しく分類することが求められる。既存の日本語大規模言語モデルで実験したところ、正しく分類するのが困難であることがわかった。また既存の英語の徳倫理データセットとの比較も行った。

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）