自然言語処理

孤島の住人たち

東条敏

2007 年14 巻2 号 p. 1-2
発行日: 2007/04/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.14.2_1

ジャーナルフリー

PDF形式でダウンロード (218K)
Web上の情報を用いた関連語のシソーラス構築について

榊剛史, 松尾豊, 内山幸樹, 石塚満

2007 年14 巻2 号 p. 3-31
発行日: 2007/04/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.14.2_3

ジャーナルフリー

抄録を表示する抄録を非表示にする

本論文ではWeb上の情報を利用し, 自動的に関連語のシソーラスを構築する手法を提案する.検索エンジンを利用し, x²値による語の関連度の指標を用い, 従来のWebを用いた関連度の指標の問題点を解決する.また, 新しいクラスタリング手法であるNewman法を用いて語のネットワークをクラスタリングすることで, 従来手法より適切に関連語を同定する.コーパスおよび既存のシソーラスから生成した関連語正解セットを用い, 提案手法の効果についての検証を行う.

抄録全体を表示

PDF形式でダウンロード (10173K)
ウェブから収集した専門分野コーパスと要素合成法を用いた専門用語訳語推定

外池昌嗣, 宇津呂武仁, 佐藤理史

2007 年14 巻2 号 p. 33-68
発行日: 2007/04/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.14.2_33

ジャーナルフリー

抄録を表示する抄録を非表示にする

本論文では, ウェブを利用した専門用語の訳語推定法について述べる.これまでに行われてきた訳語推定の方法の1つに, パラレルコーパス・コンパラブルコーパスを用いた訳語推定法があるが, 既存のコーパスが利用できる分野は極めて限られている.そこで, 本論文では, 訳を知りたい用語を構成する単語・形態素の訳語を既存の対訳辞書から求め, これらを結合することにより訳語候補を生成し, 単言語コーパスを用いて訳語候補を検証するという手法を採用する.しかしながら, 単言語コーパスであっても, 研究利用可能なコーパスが整備されている分野は限られている.このため, 本論文では, ウェブをコーパスとして用いる.ウェブを訳語候補の検証に利用する場合, サーチエンジンを通してウェブ全体を利用する方法と, 訳語推定の前にあらかじめ, ウェブから専門分野コーパスを収集しておく方法が考えられる.本論文では, 評価実験を通して, この2つのアプローチを比較し, その得失を論じる.また, 訳語候補のスコア関数として多様な関数を定式化し, 訳語推定の性能との問の相関を評価する.実験の結果, ウェブから収集した専門分野コーパスを用いた場合, ウェブ全体を用いるよりカバレージは低くなるが, その分野の文書のみを利用して訳語候補の検証を行うため, 誤った訳語候補の生成を抑える効果が確認され, 高い精度を達成できることがわかった.

抄録全体を表示

PDF形式でダウンロード (6770K)
文構造文法に基づく中国語構文解析

王向莉, 宮崎正弘

2007 年14 巻2 号 p. 69-93
発行日: 2007/04/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.14.2_69

ジャーナルフリー

抄録を表示する抄録を非表示にする

中国語構文解析では, これまで, 句構造文法 (Phrase Structure Grammar) で文の構造を取り扱ってきた.しかし, 句構造文法規則は規則間の衝突による不整合が避けられず, 曖昧性は大きな問題となっている.そこで, 本論文では述語を中心とし, 全ての構文要素を文のレベルで取り扱う文構造文法SSG (Sentence Structure Grammar) を提案し, それに基づき, 中国語の文構造文法規則体系を構築した.構築した文法規則をチャート法を拡張した構造化チャートパーザSchart上に実装し, 評価実験を行なった.実験により, 中国語SSG規則は規則問の整合性がよく, 品詞情報と文法規則だけで, 解析の曖昧性を効果的に抑止し, 確率文脈自由文法 (PCFG) に基づく構文解析より高い正解率が得られた.

抄録全体を表示

PDF形式でダウンロード (2064K)
Indonesian-Japanese Transitive Translation using English for CLIR

Ayu Purwarianti, Masatoshi Tsuchiya, Seiichi Nakagawa

2007 年14 巻2 号 p. 95-123
発行日: 2007/04/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.14.2_95

ジャーナルフリー

抄録を表示する抄録を非表示にする

We propose a query transitive translation system of a CLIR (Cross Language Information Retrieval) for a source language with a poor data resource. Our research aim is to do the transitive translation with a minimum data resource of the source language (Indonesian) and exploit the data resource of the target language (Japanese). We did two kinds of translation, a pure transitive translation and a combination of direct and transitive translations. In the transitive translation, English is used as the pivot language. The translation consists of two main steps. The first is a keyword translation process which attempts to make a translation based on available resources. The keyword translation process involves many target language resources such as the Japanese proper name dictionary and English-Japanese (pivot-target language) bilingual dictionary. The second step is a process to select some of the best available translations. We combined the mutual information score (computed from target language corpus) and TF × IDF score in order to select the best translation. The result on NTCIR 3 (NII-NACSIS Test Collection for IR Systems) Web Retrieval Task showed that the translation method achieved a higher IR score than the machine translation (using Kataku (Indonesian-English) and Babelfish/Excite (English-Japanese) engines). The transitive translation achieved about 38% of the monolingual retrieval, and the combination of direct and transitive translation achieved about 49% of the monolingual retrieval which is comparable to the English-Japanese IR task.

抄録全体を表示

PDF形式でダウンロード (10720K)

J-STAGEへの登録はこちら（無料）