2008 年 15 巻 3 号 p. 77-90
本論文では大規模なHTML文書集合から評価文を自動収集する手法を提案する.基本的なアイデアは「定型文」「箇条書き」「表」といった記述形式を利用するというものである.本手法に必要なのは少数の規則だけであるため, 人手をほとんどかけずに評価文を収集することが可能である.また, 任意のHTML文書に適用できる手法であるため, 様々なドメインの評価文を収集できることが期待される.実験では, 提案手法を約10億件のHTML文書に適用したところ, 約65万の評価文を獲得することができた.