自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
日本語ウェブページに出現するムードの収集, および拡充したムード体系の提案
大森 晃
著者情報
ジャーナル フリー

2008 年 15 巻 1 号 p. 53-79

詳細
抄録
日本語文のムードについて, いくつかの体系が提示されている.しかしながら, 既知のムード体系がどのような方法によって構成されたかは明確に示されてはいない.また, 多種多様な日本語ウェブページに含まれるような文を対象にして, ムード体系を構成しているとは思われない.したがって, 日本語ウェブページを対象にした言語情報処理において, 既知のムード体系は網羅性という点で不十分である可能性が高い.本論文では, NTCIRプロジェクトによって収集された11, 034, 409件の日本語ウェブページに含まれる文を分析して既知のムードとともに新しいムードを収集するための系統的方法について詳述する.その方法の基本的手順は, (1) 日本語文をChaSenによって単語に分割し, (2) 様々な種類のムードを表出すると予想される文末語に着目し, (3) 文末語に手作業でムードを割り当てる, というものである.そして, 収集した新しいムードを示し, 収集したムードとその他の既知ムードとの比較を行い, 収集できなかったムードは何か, 新しく収集したムードのうちすでに提示されているものは何か, を明らかにする.比較によって得た知見をもとに, より網羅性を高めるように, 拡充したムード体系の構成を提案する.
著者関連情報
© 言語処理学会
前の記事 次の記事
feedback
Top