自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
14 巻, 2 号
選択された号の論文の5件中1~5を表示しています
  • 東条 敏
    2007 年 14 巻 2 号 p. 1-2
    発行日: 2007/04/10
    公開日: 2011/03/01
    ジャーナル フリー
  • 榊 剛史, 松尾 豊, 内山 幸樹, 石塚 満
    2007 年 14 巻 2 号 p. 3-31
    発行日: 2007/04/10
    公開日: 2011/03/01
    ジャーナル フリー
    本論文ではWeb上の情報を利用し, 自動的に関連語のシソーラスを構築する手法を提案する.検索エンジンを利用し, x2値による語の関連度の指標を用い, 従来のWebを用いた関連度の指標の問題点を解決する.また, 新しいクラスタリング手法であるNewman法を用いて語のネットワークをクラスタリングすることで, 従来手法より適切に関連語を同定する.コーパスおよび既存のシソーラスから生成した関連語正解セットを用い, 提案手法の効果についての検証を行う.
  • 外池 昌嗣, 宇津呂 武仁, 佐藤 理史
    2007 年 14 巻 2 号 p. 33-68
    発行日: 2007/04/10
    公開日: 2011/03/01
    ジャーナル フリー
    本論文では, ウェブを利用した専門用語の訳語推定法について述べる.これまでに行われてきた訳語推定の方法の1つに, パラレルコーパス・コンパラブルコーパスを用いた訳語推定法があるが, 既存のコーパスが利用できる分野は極めて限られている.そこで, 本論文では, 訳を知りたい用語を構成する単語・形態素の訳語を既存の対訳辞書から求め, これらを結合することにより訳語候補を生成し, 単言語コーパスを用いて訳語候補を検証するという手法を採用する.しかしながら, 単言語コーパスであっても, 研究利用可能なコーパスが整備されている分野は限られている.このため, 本論文では, ウェブをコーパスとして用いる.ウェブを訳語候補の検証に利用する場合, サーチエンジンを通してウェブ全体を利用する方法と, 訳語推定の前にあらかじめ, ウェブから専門分野コーパスを収集しておく方法が考えられる.本論文では, 評価実験を通して, この2つのアプローチを比較し, その得失を論じる.また, 訳語候補のスコア関数として多様な関数を定式化し, 訳語推定の性能との問の相関を評価する.実験の結果, ウェブから収集した専門分野コーパスを用いた場合, ウェブ全体を用いるよりカバレージは低くなるが, その分野の文書のみを利用して訳語候補の検証を行うため, 誤った訳語候補の生成を抑える効果が確認され, 高い精度を達成できることがわかった.
  • 王 向莉, 宮崎 正弘
    2007 年 14 巻 2 号 p. 69-93
    発行日: 2007/04/10
    公開日: 2011/03/01
    ジャーナル フリー
    中国語構文解析では, これまで, 句構造文法 (Phrase Structure Grammar) で文の構造を取り扱ってきた.しかし, 句構造文法規則は規則間の衝突による不整合が避けられず, 曖昧性は大きな問題となっている.そこで, 本論文では述語を中心とし, 全ての構文要素を文のレベルで取り扱う文構造文法SSG (Sentence Structure Grammar) を提案し, それに基づき, 中国語の文構造文法規則体系を構築した.構築した文法規則をチャート法を拡張した構造化チャートパーザSchart上に実装し, 評価実験を行なった.実験により, 中国語SSG規則は規則問の整合性がよく, 品詞情報と文法規則だけで, 解析の曖昧性を効果的に抑止し, 確率文脈自由文法 (PCFG) に基づく構文解析より高い正解率が得られた.
  • Ayu Purwarianti, Masatoshi Tsuchiya, Seiichi Nakagawa
    2007 年 14 巻 2 号 p. 95-123
    発行日: 2007/04/10
    公開日: 2011/03/01
    ジャーナル フリー
    We propose a query transitive translation system of a CLIR (Cross Language Information Retrieval) for a source language with a poor data resource. Our research aim is to do the transitive translation with a minimum data resource of the source language (Indonesian) and exploit the data resource of the target language (Japanese). We did two kinds of translation, a pure transitive translation and a combination of direct and transitive translations. In the transitive translation, English is used as the pivot language. The translation consists of two main steps. The first is a keyword translation process which attempts to make a translation based on available resources. The keyword translation process involves many target language resources such as the Japanese proper name dictionary and English-Japanese (pivot-target language) bilingual dictionary. The second step is a process to select some of the best available translations. We combined the mutual information score (computed from target language corpus) and TF × IDF score in order to select the best translation. The result on NTCIR 3 (NII-NACSIS Test Collection for IR Systems) Web Retrieval Task showed that the translation method achieved a higher IR score than the machine translation (using Kataku (Indonesian-English) and Babelfish/Excite (English-Japanese) engines). The transitive translation achieved about 38% of the monolingual retrieval, and the combination of direct and transitive translation achieved about 49% of the monolingual retrieval which is comparable to the English-Japanese IR task.
feedback
Top