知能と情報
Online ISSN : 1881-7203
Print ISSN : 1347-7986
ISSN-L : 1347-7986
ショートノート
再帰的学習に基づく大規模対訳コーパスのクリーンアップ
松永 務佐藤 大輔原 正巳
著者情報
ジャーナル オープンアクセス

2017 年 29 巻 1 号 p. 527-532

詳細
抄録

大量で良質な対訳コーパスの確保は,翻訳機能を計算機処理により実現する統計的機械翻訳をはじめ,対訳用語辞書作成などの情報資産の有効活用に向け,重要性が認識されてきている.これまで大規模対訳コーパスの構築が行われる一方で,対訳コーパスの品質改善を目的に修正や更新を行うこと(クリーンアップ)に関する方法論はまだよく知られていない.本稿では言語獲得にみられる再帰的学習に基づき,言語間で文中の単語が対応付くような良質な大規模対訳コーパスの構築に向けたクリーンアップ方法を提案する.提案方法では,対訳コーパスの学習による機械翻訳の出力との差分のフィードバックにより対訳コーパス中の文対を取捨選択して更新することでクリーンアップを実現する.日英特許対訳コーパスを対象にした実験を通して,提案方法による対訳コーパスのクリーンアップの効果を明らかにする.

著者関連情報
© 2017 日本知能情報ファジィ学会
前の記事
feedback
Top