理論と方法
Online ISSN : 1881-6495
Print ISSN : 0913-1442
ISSN-L : 0913-1442
特集 非定型データ分析の可能性
ルールベース手法と機械学習による自由回答の分類
―職業コーディング自動化の方法―
高橋 和子高村 大也奥村 学
著者情報
ジャーナル フリー

2004 年 19 巻 2 号 p. 177-195

詳細
抄録

 社会調査において基本的な属性である職業は、通常、調査票に選択肢として職業コードを提示せず、自由回答法を含む複数の質問により収集したものを分析者が総合的に判断しコードを付ける。これは職業コーディングとよばれ、データを統計処理するためには必須の作業である。しかし、判断の中心となるデータが自由回答であることや職業のカテゴリ数が多い(約200)ことなどから、自由回答の分類と同様に多大な労力と時間を要するという問題が存在する。また、コーディングの結果に一貫性が欠けやすいという問題がある点も同様である。これらの問題を解決するために、自然言語処理技術の適用により職業の定義を格フレームの形式によるルールとして記述し、自動的に職業コードを決定するシステムが開発された。ルールに基づくこのシステムは、ルールにマッチしない回答をうまく処理することができないという欠点をもつが、職業コーディングで用いられる知識のすべてをルールにするのは困難である。また、ルールセットやシソーラスの継続的なメンテナンスも手間がかかる。そこで、ルールを必要としない機械学習に注目し、特に文書分類の分野で最も分類性能が高いとされるサポートベクターマシン(SVM)を職業コーディングに適用した。JGSS(日本版General Social Surveys)データを用いた実験の結果、SVMによる方法はルールベース手法より正解率が高かった。本稿の目的は、職業コーディングの自動化に対して、ルールベース手法を適用する方法およびSVMを適用する方法を提案し、その有効性を示すことである。これら2つの方法は、職業データと類似する性質をもつ自由回答の分類にも拡張が可能である。

著者関連情報
© 2004 数理社会学会
前の記事 次の記事
feedback
Top