自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
論文
文字列を特徴量とし反復度を用いたテキスト分類
尾上 徹平田 勝大岡部 正幸梅村 恭司
著者情報
ジャーナル フリー

2010 年 17 巻 1 号 p. 1_77-1_97

詳細
抄録

テキスト分類における特徴抽出とは,分類結果を改善するためにテキストの特徴たる単語または文字列を取捨選択する手続きである.ドキュメントセットのすべての部分文字列の数は,通常は非常に膨大であるため,部分文字列を特徴として使用するとき,この操作は重要な役割を果たす.
本研究では,部分文字列の特徴抽出の方法に焦点を当て,反復度と呼ばれる統計量を使って特徴抽出する方法を提案する.反復度は,高確率でドキュメントに二度以上出現する文字列は文書のキーワードであるはずだという仮定に基づく統計量であり,この反復度の性質は,テキスト分類にも有効であると考える.実験では,Zhang ら (Zhang et al. 2006) によって提案された,条件付確率を用いることで分布が類似した文字列をまとめるという手法(以下,条件付確率の方法と記す)と我々の提案する手法の比較を行う.結果の評価には適合率と再現率に基づくF値を用いることとした.ニュース記事とスパムメールの分類実験の結果,我々の提案する反復度を用いた特徴抽出法を用いると,条件付確率の方法を用いるのに比べて,ニュース記事の分類では分類結果を平均 79.65% から平均 83.39% に改善し,スパムメールの分類では分類結果を平均 90.23% から平均 93.15% に改善した.提案手法である反復度を用いる特徴抽出法は Zhang らの提案する条件付確率を用いる特徴抽出法に比べて,ニュース分類記事の分類では平均 3.74%,スパムメールの分類では平均 2.93% だけ結果を改善しており,その両方の実験において結果に有意差があることを確認した.
また,反復度を用いる特徴抽出方法を用いると,単語を特徴集合とする方法を用いる場合と比べて,ニュース記事の分類では分類の結果を平均 83.88% から平均 83.39% と平均 0.49% 低下させることとなったものの,スパムメールの分類では分類の結果を平均 92.11% から平均 93.15% と平均 1.04% 改善した.ニュース記事の分類においては反復度を用いる特徴抽出方法と単語を特徴集合とする方法に有意差は本実験では認められず,スパムメールの分類の結果においては有意差があることを確認した.
この結果が得られた要因について考察すると,条件付確率の方法を用いたほうは一見しただけでは何の部分文字列かわからないほど短い文字列を抽出する傾向にあることが分かった.これは不特定多数の文字列の一部として出現しやすいことを意味しており,文書の特徴になりえないような文字列がこれを含んでいたとき,分類結果がその文字列の影響を受けることを意味する.それに対して反復度で抽出した部分文字列は短い文字列もあるものの,長い文字列や間に空白が挟まった単語をつなぐ部分文字列も捉えているため,特定のものをさす文字列の部分文字列であるといえる.このような何を指しているのかわかりやすいある程度長い部分文字列と,間に空白を挟んだ単語と単語を結ぶような形の部分文字列が分類結果を改善していると考えられる.

著者関連情報
© 2010 言語処理学会
前の記事 次の記事
feedback
Top