自然言語処理

言語・音声研究とコーパス

板橋秀一

2001 年 8 巻 2 号 p. 1-2
発行日: 2001/04/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.8.2_1

ジャーナルフリー

PDF形式でダウンロード (254K)
決定リストを弱学習器としたアダブーストによる日本語単語分割

新納浩幸

2001 年 8 巻 2 号 p. 3-18
発行日: 2001/04/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.8.2_3

ジャーナルフリー

抄録を表示する抄録を非表示にする

本論文では決定リストを弱学習器としたアダブーストによる日本語単語分割法を提案する. 日本語単語分割は, 入力文の各文字の間に単語区切りを置くか置かないかの問題とみなすことで, 分類問題として定式化できる. この分類問題を決定リストを利用して解くことで単語分割が行える. ここでは決定リストで利用する属性に辞書情報を含めない. そのためここでの単語分割は未知語の問題を受けないという長所がある. 更に単語分割を分類問題として解く場合, 近年研究の盛んなアダブーストの手法を適用できる. アダブーストを用いることで, 決定リストの精度を高めることができる. 実験では, 京大コーパス (約4万文) を利用して決定リストを作成した. この決定リストによる単語分割の正解率は97.52%であった. この値は、同じ訓練データから構築したtri-gramモデルに基づく単語分割法での正解率92.76%を大きく上回った. またアダブーストを利用することで精度が98.49%にまで向上させることができた. また作成した単語分割システムは未知語の検出能力が高いことも確認できた.

抄録全体を表示

PDF形式でダウンロード (1412K)
Balancing up Efficiency and Accuracy in Translation Retrieval

Timothy Baldwin, Hozumi Tanaka

2001 年 8 巻 2 号 p. 19-37
発行日: 2001/04/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.8.2_19

ジャーナルフリー

抄録を表示する抄録を非表示にする

This research looks at the effects of segment order and segmentation on translation retrieval performance for an experimental Japanese-English translation memory system. We implement a number of both bag-of-words and segment order-sensitive string comparison methods, and test each over character-based and word-based indexing. The translation retrieval performance of each system configuration is evaluated empirically through the notion of segment edit distance between the translation output and model translation. Our results indicate that character-based indexing is consistently superior to word-based indexing in terms of raw accuracy, although segmentation does have an accelerating effect on TM search times in combination with a number of retrieval optimisation techniques. Segment order-sensitive approaches are demonstrated to generally outperform bag-of-words methods, with 3-operation edit distance proving the most effective comparison method. We additionally reproduced the same basic results over alphabetised data as for lexically differentiated data containing kanji characters.

抄録全体を表示

PDF形式でダウンロード (2001K)
常識的判断のための概念間の関連度評価モデル

渡部広一, 河岡司

2001 年 8 巻 2 号 p. 39-54
発行日: 2001/04/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.8.2_39

ジャーナルフリー

抄録を表示する抄録を非表示にする

コンピュータに人間のような常識的判断を行わせるための主要素は, 概念ベースおよび概念間の関連性に基づく概念連鎖機能であると考えられる. 概念ベースは, 自動学習などにより恒常的に拡張・精錬を行わなければならないために, その構造はできるだけ単純なものが望ましい. 本論文では, 概念間の関連度を評価するための新しい手法を提案している. 従来の手法では, 概念はその1次属性のベクトルモデルとして表現され, 関連度はベクトル間の内積により求められている. そのような従来手法では, 各1次属性をカテゴリーに変換しなければならないためシソーラスなどのカテゴリーデータベースが必要となる. 提案手法では, 関連度をカテゴリーを利用せず概念連鎖により求めている. 約4万の概念よりなる概念ベースを用いた実験により, 提案手法はベクトル内積を用いる方法に比べ正解率の面でやや優れる上に, 概念知識の追加/変更が容易で利用を通じての質の向上が図れることを示した.

抄録全体を表示

PDF形式でダウンロード (1595K)

J-STAGEへの登録はこちら（無料）