人工知能
Online ISSN : 2435-8614
Print ISSN : 2188-2266
人工知能学会誌(1986~2013, Print ISSN:0912-8085)
文字列索引法とその自然言語処理への応用
伊東 秀夫
著者情報
解説誌・一般情報誌 フリー

2000 年 15 巻 6 号 p. 998_2

詳細
抄録

本論文は, 接尾配列(suffix array)と呼ばれる文字列索引の効率的な構築アルゴリズムと, その自然言語処理への応用として, 接尾配列による統計的言語モデル(PPM^*)の実現について論じており, 5章よりなる.第1章「序章」では, 自然言語処理が対象とする大容量テキストを現実的な計算機資源を用いて扱うための文字列索引技術の構築を本研究の目的としてあげ, 第2章「文字列索引に関する従来研究」では, Suffix tree, DAWG, Suffix array, String B-treeの従来研究を概説している.第3章「Suffix arrayの構築法」で, 従来に比べて効率的な構築法(suffixのソート法)として, 二段階ソート法, 順位ソート法, 分割ソート法と呼ぶ3つのアルゴリズムを提案し, 各々の性能評価を行っている.第4章「Suffix arrayを用いた言語モデリング」では自然言語処理への具体的な応用として, 大規模な統計的言語モデルの構築法を提案している.テキスト圧縮分野で提案された言語モデルのPPM^*に関して, Suffix arrayにより次入力の予測に用いる文脈を表現することで, 従来のグラフ構造による表現に比べコンパクト化を実現している.第5章「結論」では, これまでの議論を総括し本研究の今後の課題について述べている.

著者関連情報
© 2000 人工知能学会
前の記事 次の記事
feedback
Top