抄録
東日本大震災ビッグデータワークショップにおいて提供された,震災当日を含めた 1 週間分のツイートのうち,震災対応の初動期間にあたる震災後 72 時間を含む 4 日分のツイッターを解析した.ツイートのクラスタリングによって得られる全体の俯瞰を行ってから目的に応じた分類項目を設定し,その項目に即したツイートを抜き出す抽出器を作成した.一連の作業をよく行うためには,分類項目を設定するために用いられるクラスタリングの性能向上が重要な要素となっている.本研究では,古典的な類義語処理手法である特異値分解をクラスタリングに適用する際に,良く知られている次元圧縮に留まらず,特異値の大きさを特徴量の重みづけの大きさとして活用する手法を提案する.また,クラスタリング結果を人手で修正する作業の容易度を測るための新たな指標を提案し,人手による実作業の効率と比較する実験を行った.その結果,クラスタリングについては,主に作業効率の観点から,特異値による重みづけの有効性と提案する作業指標の妥当性が確認された.分類問題であるターゲットデータ抽出については,学習過程にそもそも重みづけの機構が備わっているにもかかわらず,検出率の向上に若干の効果が見られた.