言語処理における「bootstrapping」とは,シードと言われる少数の語やラベル付与されたデータを用いて語の意味同定,語対の関連性推定やシードと類似した語を抽出するための手法である.少数のラベル付与データを用いることから,minimally supervised な手法の一つである.
語の意味同定や語対の関連性推定としては,Yarowsky[1995]やPantel ら[2006]の研究が有名である.Yarowskyは,言語がもつ特徴(連語や談話は一つだけの意味をもつ)と,ラベルの付与されていないデータを用いて語の意味を同定する手法を提案している.Pantel らは,パタンを用いて二つの名詞対が持つ関連性を同定する手法を提案している.
シードとして与えた語と類似した語を抽出する手法としては,酒井ら[2006]の研究がある.酒井らは新聞記事中の交通事故事例から交通事故の原因となる表現を自動的に抽出する手法を提案している.この手法では,「が原因」というシードを与え,それとよく係り受け関係を持つ「よそ見運転」などの交通事故原因を示す表現(原因表現)を抽出する.その後,抽出した「よそ見運転」などの原因表現を用いて,新たなシードとなる「のため」などを抽出する.このサイクルを繰り返すことで,数多くのシードと原因表現を抽出できる.
「bootstrapping」の特性として,サイクルを繰り返すことで適合率が下がり,再現率が向上するということが知られている.多くの場合,初めに与えるシードは信頼性が高いが数は少ない.そのため,適合率は高く再現率は低い状態から始まる.サイクルを繰り返すうちに新たな語を抽出していくが,不適切な語も抽出してしまう.したがって,徐々に再現率は向上するが,適合率は下がっていく.
少数のラベル付与されたデータさえあれば,いわゆるビッグデータに対しても適用できるため,情報抽出やテキストマイニングに関連するタスクには,「bootstrapping」はとても効果的な手法である.
抄録全体を表示