正誤判別規則学習を用いた複数の日本語固有表現抽出システムの出力の混合

宇津呂 武仁; 颯々野 学; 内元 清貴

doi:10.5715/jnlp.9.65

抄録

本論文では, 日本語固有表現抽出の問題において, 複数のモデルの出力を混合する手法を提案する. 一般に, 複数のモデル・システムの出力の混合を行なう際には, まず, できるだけ振る舞いの異なる複数のモデル・システムを用意する必要がある. 本論文では, 最大エントロピー法に基づく統計的学習による固有表現抽出モデルにおいて, 現在位置の形態素が, いくつの形態素から構成される固有表現の一部であるかを考慮して学習を行なう可変 (文脈) 長モデルと, 常に現在位置の形態素の前後数形態素ずつまでを考慮して学習を行なう固定 (文脈) 長モデルとの間のモデルの挙動の違いに注目する. そして, 複数のモデルの挙動の違いを調査し, なるべく挙動が異なり, かつ, 適度な性能を保った複数のモデルの出力の混合を行なう. 次に, 混合の方式としては, 複数のシステム・モデルの出力 (および訓練データそのもの) を入力とする第二段目の学習器を用いて, 複数のシステム・モデルの出力の混合を行なう規則を学習するという混合法 (stacking法) を採用する. 第二段目の学習器として決定リスト学習を用いて, 固定長モデルおよび可変長モデルの出力を混合する実験を行なった結果, 最大エントロピー法に基づく固有表現抽出モデルにおいてこれまで得られていた最高の性能を上回る性能が達成された.

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）