人工知能学会全国大会論文集
Online ISSN : 2758-7347
第38回 (2024)
セッションID: 4Xin2-98
会議情報

LLMの事前学習データ検知法の日英比較
*小柳 響子佐藤 美唯梶浦 照乃倉光 君郎
著者情報
会議録・要旨集 フリー

詳細
抄録

大規模言語モデル(LLM)の構築に使用される大量の事前学習データの中には,著作権で保護されたテキストや,個人情報など,学習に不適切なデータが含まれている可能性がある.LLMの構築に使用した具体的な学習データは明示されないことが多いため、事前学習データを検知する手法が重要になる. 既存の検知手法として、入力テキストの内,予測確率の低いトークンを用いて学習の有無を判定する方法があるが,評価対象は,英語を中心に学習したLLMであり,日本語を中心に学習したLLMでの有効性は調査されていない. 本研究の目的は,日本語LLMにおける既存の検知手法の有効性を評価し,英語LLMでの有効性と比較することである.そのために,我々は日本語の事前学習データにおいて検知手法の評価を行うためのベンチマークJAWikiMIAを構築した. 実験の結果,学習の有無を判定する際,英語LLMでは,入力テキストのうち予測確率が下位20%のトークンの平均対数尤度を用いると検知精度が高くなる一方で,日本語LLMでは,全てのトークンの平均対数尤度を用いた方が検知精度が高くなることが明らかとなった.

著者関連情報
© 2024 人工知能学会
前の記事 次の記事
feedback
Top