自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
一般論文(査読有)
kNN 言語モデルの低頻度語に対する振る舞いの分析
西田 悠人森下 睦出口 祥之上垣外 英剛渡辺 太郎
著者情報
ジャーナル フリー

2025 年 32 巻 4 号 p. 1272-1298

詳細
抄録

検索拡張言語モデルの一つである kNN 言語モデルは,任意のテキストデータから構築された大規模なデータストアに推論時に直接アクセスすることで,文脈を適切に把握し,言語らしさを高精度に予測可能であることが報告されている.kNN 言語モデルは明示的な記憶であるデータストアの活用によって低頻度現象の予測性能を改善できるという仮説が提唱されてきたが,既存の検証では主に低頻度の文脈の検索性能に焦点が当てられ,低頻度語の予測性能については十分に検討されてこなかった.本研究では,kNN 言語モデルが低頻度語に対してどのように振る舞うかを,予測確率や検索精度,データストア内におけるトークンの幾何的な分布,直積量子化による近似誤差の観点から詳細に分析した.実験の結果,kNN 言語モデルは低頻度語の予測性能の改善に寄与せず,むしろ高頻度語の予測を改善することを示した.

著者関連情報
© 2025 一般社団法人 言語処理学会
前の記事 次の記事
feedback
Top