自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
日英新聞の記事および文を対応付けるための高信頼性尺度
内山 将夫井佐原 均
著者情報
ジャーナル フリー

2003 年 10 巻 4 号 p. 201-220

詳細
抄録
大規模な日英対訳コーパスを作ることを目的として, 1989年から2001年までの読売新聞とThe Daily Yomiuriとから日英記事対応と文対応とを得た. そのときの方法は, まず, 内容が対応する日本語記事と英語記事とを言語横断検索により得て, 次に, その対応付けられた日英記事中にある日本語文と英語文とをDPマッチングにより対応付けるというものである. しかし, それにより対応付けられた記事対応や文対応には, 間違った対応 (ノイズ) が多く含まれる. そのため, 我々は, 本稿において, そのようなノイズを避けて, 正しい対応のみを得るための信頼性の高い尺度を提案し, その信頼性の評価をした. 実験の結果, 我々の提案した尺度を用いることにより, 良質な記事対応や文対応が得られることがわかった. また, その数は, 良質な記事対応は約4万7千であり, 文対応は, 1対1対応が約15万, 1対1対応以外が約3万8千であった. これらは, 現時点で一般に利用できる日英2言語コーパスとしては最大のものである.
著者関連情報
© 言語処理学会
前の記事
feedback
Top