自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
古典の総索引からの品詞タグ付きコーパスの作成
上原 徹三金澤 恵潮 靖之矢古宇 智子
著者情報
ジャーナル フリー

2003 年 10 巻 2 号 p. 59-78

詳細
抄録

全単語の出現箇所を与える総索引は日本の古典の研究の補助として用いられている. 品詞タグ付きコーパスはコンピュータを用いた自然語研究の手段として重要である. しかし日本語古典文に関する品詞タグ付きコーパスは公開されていない. そこで総索引を品詞タグ付きコーパスに変換する方法を検討した. 使用した総索引は本文編と索引編とから成り, 後者は単語の仮名/漢字表記品・詞情報を見出しとし, その単語の本文での出現行番号のリストを与える. 変換機能には活用表の知識のみを保持した. ある単語の部分文字列が他の単語の表記と一致し, 両者が同一行に出現することがあり得る問題に対し, 一種の最長一致法を用いた. 索引の見出しの漢字表記が送り仮名等の仮名文字を含まないため, 照合条件を緩める先読み法を用いた. 照合失敗部や索引自体の誤りへの対処のため, 変換の不完全部分を示す印を出力し人手で検査・修正した. 以上の結果, 約15万単語の古典文の品詞タグ付きコーパスを得た.

著者関連情報
© 言語処理学会
前の記事 次の記事
feedback
Top