自然言語処理

「同形式異内容」と「異形式同内容」

佐藤理史

2001 年 8 巻 1 号 p. 1-3
発行日: 2001/01/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.8.1

ジャーナルフリー

PDF形式でダウンロード (259K)
ランダム・プロジェクションによるベクトル空間情報検索モデルの次元削減

佐々木稔, 北研二

2001 年 8 巻 1 号 p. 5-19
発行日: 2001/01/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.8.5

ジャーナルフリー

抄録を表示する抄録を非表示にする

ベクトル空間モデルは情報検索における代表的な検索モデルである. ベクトル空間モデルでは文書を索引語の重みベクトルで表現するが, 文書ベクトルは一般に要素数が非常に多く, スパースなベクトルになるため, 検索時間の長さや必要なメモリの量が大きな問題となる. 本論文では, この問題を解決するため, ベクトル空間モデルにおけるベクトルの次元圧縮を行う手法としてランダム・プロジェクションを用いた検索モデルを提案する. その有効性を評価するために, 評価用テストコレクションであるMEDLINEを利用して, 検索実験を行った. その結果, ランダム・プロジェクションはLSI (Latent Semantic Indexing) に比べ高速で, かつ同等な検索性能を持つ次元圧縮手法であることが確認された. また, ランダム・プロジェクションで次元圧縮に必要な行列を得るために, 球面κ平均アルゴリズムで得られる概念ベクトルの利用を提案する. 同様に検索実験を行った結果, 任意のベクトルを用いた検索性能に比べ改善され, 概念ベクトルが検索性能の向上に有効であることが確認された.

抄録全体を表示

PDF形式でダウンロード (1480K)
An Agent-based Parallel HPSG Parser for Shared-memory Parallel Machines

Takashi Ninomiya, Kentaro Torisawa, Jun'ichi Tsujii

2001 年 8 巻 1 号 p. 21-47
発行日: 2001/01/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.8.21

ジャーナルフリー

抄録を表示する抄録を非表示にする

We describe an agent-based parallel HPSG parser that operates on shared-memory parallel machines. It efficiently parses real-world corpora by using a wide-coverage HPSG grammar. The efficiency is due to the use of a parallel parsing algorithm and the efficient treatment of feature structures. The parsing algorithm is based on the CKY algorithm, in which resolving constraints between a mother and her daughters is regarded as an atomic operation. The CKY algorithm features data distribution and granularity of parallelism. The keys to the efficient treatment of feature structures are i) transferring them through shared-memory, ii) copying them on demand, and iii) writing/reading them simultaneously onto/from memory.Being parallel, our parser is more efficient than sequential parsers. The average parsing time per sentence for the EDR Japanese corpus was 78 msec and its speed-up reaches 13.2 when 50 processors were used.

抄録全体を表示

PDF形式でダウンロード (6649K)
WFSTに基づく確率文脈自由文法およびその拡張文法の高速EM学習法

亀谷由隆, 森高志, 佐藤泰介

2001 年 8 巻 1 号 p. 49-84
発行日: 2001/01/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.8.49

ジャーナルフリー

抄録を表示する抄録を非表示にする

現在, 統計的言語モデルのークラスとして確率文脈自由文法 (PCFG) が広く知られている. また, 括弧なしコーパスからPCFGを訓練する方法としてInside-Outside (I-O) アルゴリズムが知られてきた. I-OアルゴリズムはPCFG用に効率化を施したEM (expectation-maximization) アルゴリズムだが, 依然その計算速度に問題があることが知られている. 本論文では, 文法構造があらかじめ与えられていることを前提に, 訓練過程を構文解析とEM学習に分離した高速EM学習法を提案する. その中間データ構造にパーザが生成するWFST (well-formed substring table) を用いる. 例えば, 一般化LRパーザを用いると事前コンパイル・ボトムアップ探索による効率性, およびChomsky標準形を要求しないという一般性を引き継ぐことができる. 一方EM学習では, WFSTのコンパクトさを利用して効率的なパラメタ推定が行なわれる. 推定結果はI-Oアルゴリズムで得られるものと一致する. 更に, 文脈依存性を取り入れたPCFGの拡張モデルに対する多項式オーダのEM学習法を示す. また, ATR対話コーパスを用いて実験を行ない, 訓練時間が大幅に短縮されていることを確認した.

抄録全体を表示

PDF形式でダウンロード (3477K)
情報検索システムの統計的手法による特徴と精度の分析

佐々木稔, 北研二

2001 年 8 巻 1 号 p. 85-99
発行日: 2001/01/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.8.85

ジャーナルフリー

抄録を表示する抄録を非表示にする

本論文では, IREXワークショップにおける情報検索課題 (IR) の本試験の結果, および, 参加したすべてのIRシステムについてのアンケートをもとに, 平均適合率, 再現率・適合率曲線を直線回帰させた傾きと切片がシステムに用いられた手法とどのような相関関係をもっているのかを調査し, それぞれの手法がシステムの性能に与える影響の大きさを示した. その結果, 多くの手法について, 再現率0.0での適合率の値と適合率の減少量にトレードオフの関係が存在し, 検索システムに用いる手法の選択の難しさが現れた. また, NARRATIVEタグの使用有無により, 同様に相関関係を調査し, NARRATIVEタグの有効性とシステムの性能に与える影響の大きさを示した. その結果, NARRATIVEタグを利用する場合, それに適した有効な手法を選択することが重要であることが分かった.

抄録全体を表示

PDF形式でダウンロード (1452K)
TRUCKS: A Model for Automatic Multi-Word Term Recognition

Diana Maynard, Sophia Ananiadou

2001 年 8 巻 1 号 p. 101-125
発行日: 2001/01/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.8.101

ジャーナルフリー

抄録を表示する抄録を非表示にする

This paper examines the use of linguistic techniques in the area of automatic term recognition. It describes the TRUCKS model, which makes use of different types of contextual information-syntactic, semantic, terminological and statistical-seeking particularly to identify those parts of the context which are most relevant to terms. From an initial corpus of sublanguage texts, this identifies, disambiguates and ranks candidate terms. The system is evaluated with respect to the statistical approach on which it is built, and with respect to its expected theoretical performance. We show that by using deeper forms of contextual information, we can improve on the extraction of multi-word terms. The resulting list of ranked terms is shown to improve on that produced by traditional methods, in terms of precision and distribution, while the information acquired in the process can also be used for a variety of other applications, such as disambiguation, lexical tuning and term clustering.

抄録全体を表示

PDF形式でダウンロード (3559K)
最大エントロピーモデルに基づく形態素解析

未知語の問題の解決策

内元清貴, 関根聡, 井佐原均

2001 年 8 巻 1 号 p. 127-141
発行日: 2001/01/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.8.127

ジャーナルフリー

抄録を表示する抄録を非表示にする

形態素解析は日本語解析の重要な基本技術の一つとして認識されている. 形態素解析の形態素とは, 単語や接辞など, 文法上, 最小の単位となる要素のことであり, 形態素解析とは, 与えられた文を形態素の並びに分解し, それぞれの形態素に対し文法的属性 (品詞や活用など) を決定する処理のことである. 近年, 形態素解析において重要な課題となっているのは, 辞書に登録されていない, あるいは学習コーパスに現れないが形態素となり得る単語 (未知語) をどのように扱うかということである. この未知語の問題に対処するため, これまで大きく二つの方法がとられてきた. 一つは未知語を自動獲得し辞書に登録する方法であり, もう一つは未知語でも解析できるようなモデルを作成する方法である. ここで, 前者の方法で獲得した単語を辞書に登録し, 後者のモデルにその辞書を利用できるような仕組みを取り入れることができれば, 両者の利点を生かすことができると考えられる. 本論文では, 最大エントロピー (ME) モデルに基づく形態素解析の手法を提案する. この手法では, 辞書の情報を学習する機構を容易に組み込めるだけでなく, 字種や字種変化などの情報を用いてコーパスから未知語の性質を学習することもできる. 我々はこの手法により未知語の問題が克服される可能性が高いと考えている. 京大コーパスを用いた実験では, 再現率95.80%, 適合率95.09%の精度が得られた.

抄録全体を表示

PDF形式でダウンロード (1638K)
多義解消のための構造規則の生成方法と日本語名詞句への適用

池原悟, 中井慎司, 村上仁一

2001 年 8 巻 1 号 p. 143-174
発行日: 2001/01/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.8.143

ジャーナルフリー

抄録を表示する抄録を非表示にする

自然言語処理では, 処理の過程で, さまざまな解釈の曖昧さが生じる. この曖昧さを解消するのに必要な知識を記述するため, 対象とする表現を部分的な表現の組に還元せず, 一体として捉える方法として, 言語表現とその解釈の関係を変数とクラスの組からなる構造規則として表現し, 学習用標本から半自動的に収集する方法を提案した. この方法は, パターン化された表現の変数部分を表すのに文法属性体系と意味属性体系を使用しており, N個の変数を持つ表現パターンに対して, 一次元規則からN次元規則までの規則と字面からなる例外規則を合わせてN+1種類の構造規則が順に生成される点, また, 各規則は, その生成過程において, 各属性の意味的な包含関係を用いて容易に汎化される点に特徴がある. 本方式を「AのBのC」の型の名詞句に対する名詞間の係り受け解析規則の生成に適用した結果では, 変数部分を意味属性で表現した構造規則の場合, 1万件の学習事例から, 一次元規則198件, 二次元規則1480件, 三次元規則136件が得られ, それを使用した係り受け解析では, 約86%の解析精度が得られることが分かった. また, 変数部分を文法属性で表した規則と意味属性で表した規則を併用する場合は, 解析精度は, 1～2%向上することが分かった.この値は, 2名詞間の結合強度に還元して評価する方法 (72%) より約15%高い. この種の名詞句では, 人間でも係り先の判定に迷うような事例が10%近く存在することを考慮すると, 得られた規則の精度は, 人間の解析能力にかなり近い値と言える.

抄録全体を表示

PDF形式でダウンロード (3400K)
対話者の社会的役割を利用した訳し分け手法

山田節夫, 隅田英一郎, 柏岡秀紀

2001 年 8 巻 1 号 p. 175-190
発行日: 2001/01/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.8.175

ジャーナルフリー

抄録を表示する抄録を非表示にする

音声翻訳を介した対話をより自然なものにするためには, 原言語を解析するだけでは取得困難な『言語外情報』を利用することが有効である. 例えば'『対話者の社会的役割』を使用した翻訳は対話をより自然にする.本論文では, 特にこの『対話者の社会的役割』に着目し, この役割情報を利用して, 適切な丁寧度の翻訳にする手法を提案する. 既存の変換ルールや辞書にこの役割情報に応じた修正を加えることによって訳を変える. 実際に英日翻訳における変換ルールや辞書に『対話者の社会的役割』に応じたルールやエントリーを登録し, その際に参照していない未訓練の23会話 (344発声) を使って実験をした. その結果'丁寧表現にすべき発声に対して, 再現率が65%, 適合率が86%であった. したがって'本手法は, 音声翻訳を使って自然な対話を行うためには効果的であり実現性も高い. さらに, 対話者の性別情報など他の言語外情報や英日以外の言語対に対する本手法の適用可能性についても考察する.

抄録全体を表示

PDF形式でダウンロード (1486K)
自然言語処理Vol.7 No.4の訂正

2001 年 8 巻 1 号 p. 191a
発行日: 2001年
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.8.1_191a

ジャーナルフリー

PDF形式でダウンロード (50K)
自然言語処理Vol.7 No.4の訂正

2001 年 8 巻 1 号 p. 191c
発行日: 2001年
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.8.1_191c

ジャーナルフリー

PDF形式でダウンロード (50K)
自然言語処理Vol.7 No.4の訂正

2001 年 8 巻 1 号 p. 191b
発行日: 2001年
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.8.1_191b

ジャーナルフリー

PDF形式でダウンロード (50K)

J-STAGEへの登録はこちら（無料）