自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
語の連接関係を利用した未知語の形態素辞書情報の獲得手法
朴 哲済筧 捷彦
著者情報
ジャーナル フリー

1997 年 4 巻 1 号 p. 71-86

詳細
抄録
本稿では, 大量の未知語の形態素情報の自動的な蓄積手法の研究について述べる. その内容は, 形態素の品詞・活用種類・活用形 (これをここでの形態素属性とする) の推定及び統計的手段による推定の精度向上と, 日本語における形態素の推定である. 文章内の語間の連接関係に注目することによって, 未知語の形態素属性を推定する. そして, 形態素の字種と連接関係の頻度統計を適用することによって, 未知語の形態素属性の推定精度を向上させる. また, “分ち書き” されていない日本語においては, 形態素の推定が必要になる. 特定の品詞 (助詞と助動詞) を完全な情報とみなし, 形態素を構成する文字種の並び規則から分割の基点をもとめ, すでに登録されている単語にもとづき, 形態素推定を行なう. これを形態素属性の推定を行なうプロセスに送ることで, 推定結果から形態素であるものが選択される. 以上の手法を日本語に対して適用するシステムを構築し, 朝日新聞社説6ヶ月分のコーパス中の約240,000形態素を用いて実験を行なった. その結果, 活用品詞に対しては90.5%, その他の品詞に対しては95.2%, 全体の平均としては94.6%の形態素の推定成功率を得て228, 450形態素の形態素属性を推定し, 新たにユニークな形態素15, 523個を蓄積することができた.
著者関連情報
© 言語処理学会
前の記事 次の記事
feedback
Top