自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
WEB文書を対象にしたKWICシステム
関根 聡武田 善行吉平 健治
著者情報
ジャーナル フリー

2005 年 12 巻 4 号 p. 245-252

詳細
抄録
言葉を調べる際に有用なKWICシステムをWEBの膨大なテキストを対象に作成した.データは約350GバイトのWEBページにある約100億文字以上の日本語データをクローラーで2ヶ月かけて収集した.テキストの分量は32ビットで表される4Gバイトを超えており, 40ビット長インデックスに対応したサフィックスアレーを用いた高速な検索を実現している.例として, 「と痛む」のKWICリストを集め, その直前に現れるオノマトペを分析し, 日本語学習者に対して有用であることを示した.
著者関連情報
© 言語処理学会
前の記事
feedback
Top