自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
確率的言語モデルに基づく多言語コーパスからの言語系統樹の再構築
北 研二
著者情報
ジャーナル フリー

1997 年 4 巻 3 号 p. 71-82

詳細
抄録

本論文では, 言語のクラスタリングに関する新しい手法を提案する.提案する手法では, まず各言語の言語データから確率的言語モデルを構築し, 次に確率的言語モデルの間に導入した距離に基づき, 元の言語に対するクラスタリングを実行する.本論文では, 以上の手法をN-gramモデルの場合について詳しく述べている.また, 提案した手法を用いて, ECI多言語コーパス (European Corpus Initiative Multilingual Corpus) 中の19ヶ国語のテキスト・データから, 言語の系統樹を再構築する実験を行った.本実験で得られた結果は, 言語学で確立された言語系統樹と非常に似ており, 提案した手法の有効性を示すことができた.

著者関連情報
© 言語処理学会
前の記事 次の記事
feedback
Top