動詞訳語選択のための「格フレーム木」の統計的な学習

田中 英輝

doi:10.5715/jnlp.2.3_49

抄録

機械翻訳システムでは動詞の訳語を選択するために格フレームがよく利用される. 格フレームは従来主として人手で記述されていたが, 一貫性を保って記述するのが難しいこと, 格フレームを部分的に変更した場合に起こる影響が把握しにくいことなどの重大な問題があった. そこでこれらの問題を解決するため, 本論文では格フレームを決定木の形で表し (これを格フレーム木と呼ぶ), これを英日の対訳コーパスから統計的な帰納学習プログラムを利用して学習することを提案する. 本論文ではまず, この提案によって上記の問題が軽減される根拠を述べた後, 本論文で作成した英日対訳コーパスについて述べる. 続いて7つの英語動詞について格フレーム木の獲得実験を2つ報告する. 最初の実験は, 格要素の制約として英語の単語を使う格フレーム木を学習したものである. これにより得られた格フレーム木を観察したところ, 人間の直観に近く, かつ直観を越えた非常に精密な訳し分けの情報が得られたことが明らかになった. 次に, この格フレームの一般性を高めるために, て格フレーム木を学習する実験を行った. 得られた格フレーム木で未学習のデータの動詞の訳語を決定する評価を行ったところ, 2. 4%ないし32. 2%の誤訳率が達成された. この誤訳率と, 先の英語単語を利用した格フレーム木での誤訳率との差は13. 6%ないし55. 3%となり, 意味分類コードが有効に機能したことが示された.

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

J-STAGEへの登録はこちら（無料）