本稿は最長文脈優先に基づいて長さ可変文脈で品詞タグづけを行うマルチニューロタガーを提案する. マルチニューロタガーはそれぞれ長さの異なる文脈を入力とした複数のニューラルネット (それぞれをシングルニューロタガーと呼ぶ) とそれらの出力を選別する最長文脈優先セレクターで構成される. 個々のニューラルネットの訓練はそれぞれ独立に行なわれるのではなく, 短い文脈での訓練結果 (訓練で獲得した重み) を長い文脈での初期値として使う. その結果, 訓練時間が大幅に短縮でき, 複数のニューラルネットを用いても訓練時間はほとんど変わらない. タグづけにおいては, 目標単語自身の影響が最も強く, 前後の単語もそれぞれの位置に応じた影響を与えていることを反映させるために, 入力の各構成部分は情報量最大を考慮して訓練データから得られるインフォメーションゲイン (略してIGと呼ぶ) を影響度として重み付けられる. その結果, 更に訓練時間が短縮され, タグづけの性能が改善される. 計算機実験の結果, マルチニューロタガーは, 8, 322文の小規模タイ語コーパスを訓練に用いることにより, 未訓練タイ語データを94%以上の正解率でタグづけすることができた. この結果は, 固定長さを文脈としたどのシングルニューロタガーを用いた場合よりも優れ, マルチニューロタガーはタグづけ過程において動的に適切な長さの文脈を見つけていることを示した.
抄録全体を表示