自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
多言語パラレルコーパスを利用した言い換え表現グループの構築と分析
柏岡 秀紀
著者情報
ジャーナル フリー

2004 年 11 巻 5 号 p. 3-18

詳細
抄録
近年, 自然言語処理において言い換え表現に関するデータやその処理技術が重要視されてきている. しかしながら, 言い換え表現をまとめたデータはそれほど多くない. これまで, 言い換え表現を抽出する手法としてパラレルコーパスを利用し, ある表現に対する複数の対訳を抽出する手法が提案されている. しかしながら, 複数の言い換え表現を獲得するのに適したパラレルコーパスはそれほど多くなく, また, 得られる表現のバリエーションはデータ量に対して大きくはない. 本稿では, この基礎的なアイデアに基き, 対訳関係でつながる表現の連鎖をすべて言い換え表現セットとして捕えることで, バリエーションを広げることを試みた. ただし, 微妙に異なる言い換えの連鎖により言い換え表現セットが全体としては, 一つのまとまった言い換え表現とならない可能性が生じる. そこで, 一度まとめあげられた言い換え表現を二部グラフ (bipartite graph) とみなし分解する手法を提案し, 4ヶ国語の基本旅行会話表現集に対して言い換え表現グループを構築し分割結果をツールを利用して人手による判定を行ったところ, ほぼ良好なセットを得ることができた.
著者関連情報
© 言語処理学会
前の記事 次の記事
feedback
Top