2017 年 24 巻 1 号 p. 135-170
社会学では,職業や産業は性別や年齢などと同様に重要な変数であるとの認識から,正確を期するために,自由回答で収集したデータを研究者自身によりコードに変換することが多い.これは職業・産業コーディングとよばれるが,大規模調査の場合,膨大な労力と時間がかかる上に,結果における一貫性の問題も存在する.そこで,ルールベース手法と機械学習 (SVM) を適用したコーディング自動化システムを開発した.本システムは,国内・国際標準の職業・産業コードを第 3 位まで予測し,第 1 位の予測コードには,自動コーディング後に人手によるチェックが必要か否かの目安となる3段階の確信度も付与する.現在,本システムは,東京大学社会科学研究所附属社会調査・データアーカイブ研究センター (CSRDA) から Web による利用サービスが試行提供されており,研究目的であれば,だれもが指定された形式の入力ファイルをアップロードして,希望するコードに変換された結果ファイルをダウンロードすることができるようになっている.