自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
構造化された言語資料に対する全文検索システムの設計と実現
山口 昌也田中 牧郎
著者情報
ジャーナル フリー

2005 年 12 巻 4 号 p. 55-77

詳細
抄録

本論文では, 構造化された言語資料の検索・閲覧を指向した全文検索システムである『ひまわり』の設計, および, その実現方法を示す.ここで言う「構造化された言語資料」とは, コーパスや辞書のように, 言語に関する調査, 研究などに利用することを目的として, 一定の構造で記述された資料一般を指す.『ひまわり』は, 言語資料の構造化形式の多様性と利用目的の多様性に対応した設計がなされている.構造化形式の多様性については, 言語資料がXMLで構造化されていることを想定して, XML文書に対する全文検索機能を実現した.全文検索に付け加えて, マークアップされている情報の抽出や抽出された情報に基づく検索結果の制約を行うことも可能である.また, Suffix Arrayなどの索引を用いて, 検索の高速化を図っている.一方, 言語資料に適した検索式と閲覧形式を柔軟に定義できるようにすることにより, 利用目的の多様性に対処した.閲覧形式は, KWIC表示機能を備えた表形式での閲覧を基本とし, ルビなどの通常のテキストでは表現できない表示形式や音声, 画像に対しては, XSL変換などを介して外部閲覧システムにデータを受け渡す方法を用いる.多様性にする『ひまわり』の有効性を検証するために, 『分類語彙表』, および, 『日本語話し言葉コーパス』に『ひまわり』を適用し, 定性的な評価を行うとともに, 検索速度測定による定量的な評価を行った.

著者関連情報
© 言語処理学会
前の記事 次の記事
feedback
Top