自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
論文
文字列正規化パタンの獲得と崩れ表記正規化に基づく日本語形態素解析
斉藤 いつみ貞光 九月浅野 久子松尾 義博
著者情報
ジャーナル フリー

2017 年 24 巻 2 号 p. 297-314

詳細
抄録

ソーシャルメディア等の崩れた日本語の解析においては,形態素解析辞書に存在しない語が多く出現するため解析誤りが新聞等のテキストに比べ増加する.辞書に存在しない未知語の中でも,既知の辞書語からの派生に関しては,正規形を考慮しながら解析するという表記正規化との同時解析の有効性が確認されている.本研究では,これまで焦点があてられていなかった,文字列の正規化パタン獲得に着目し,アノテーションデータから文字列の正規化パタンを統計的に抽出する.統計的に抽出した文字列正規化パタンと文字種正規化を用いて辞書語の候補を拡張し形態素解析を行った結果,従来法よりも再現率,精度ともに高い解析結果を得ることができた.

著者関連情報
© 2017 一般社団法人 言語処理学会
前の記事
feedback
Top