自然言語処理

論文誌の役割

辻井潤一

1996 年 3 巻 4 号 p. 1-2
発行日: 1996/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.3.4_1

ジャーナルフリー

PDF形式でダウンロード (157K)
国文学作品のテキストデータ記述ルールについて

安永尚志

1996 年 3 巻 4 号 p. 3-29
発行日: 1996/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.3.4_3

ジャーナルフリー

抄録を表示する抄録を非表示にする

国文学作品の電子化テキストのためのデータ記述ルールについて検討した. 様々な国文学作品の特徴を整理し, 電子化テキストの目的と研究対象をまとめ, 必要なデータ記述のための機能や情報構造について考察している. データ記述の基本原則を作品の構造とテキストの構造に分けて考察し, またデータ表記の様相を分析, 評価し, ルール化についてまとめている. 3つの基本ルールから成るKOKINルールと呼ぶデータ記述文法を定義し, 作成した. これは国文学作品を対象とする電子化テキスト記述用のマークアップ文法である. ルールに基づく電子化データを実際に作成し, ルールの構文の正当性やルールの有用性などについて評価している. 例えば, 電子化データのテキストデータベースやCD-ROMへの登録, SGMLへの変換などを行っている. これらの結果, ルールの有効性が確認され, 実用性についても高く評価された.

抄録全体を表示

PDF形式でダウンロード (3279K)
表層表現を手がかりとした日本語名詞句の指示性と数の推定

村田真樹, 黒橋禎夫, 長尾真

1996 年 3 巻 4 号 p. 31-48
発行日: 1996/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.3.4_31

ジャーナルフリー

抄録を表示する抄録を非表示にする

日本語を英語に翻訳する時には, 日本語にはないが英語では必要な冠詞や数の問題に直面する. この難しい問題を解決するために, われわれは文章における名詞句の指示性と数をそれぞれ三種類に分類した. 指示性には総称名詞句, 定名詞句, 不定名詞句を設け, 数には単数, 複数, 不可算を設けた. この論文では, 名詞句の指示性と数が, その名詞句の現れる文中の言葉によりかなりの程度推定できることを示した. その推定のための規則は確信度付きのエキスパートシステムの書き換え規則に類する形で, 文法書などから得られる知識をもとに経験的に作成した. この方法は, 確信度を用いて推定するので, 指示性や数のような曖昧な問題には適した方法である. 規則を作るのに利用したテキストでの正解率は, 指示性で85.5%, 数で89.0%であった. 規則を作るのに利用していないいくつかのテキストでの正解率は平均して指示性で68.9%, 数で85.6%という結果となった. この指示性と数は冠詞の決定に利用されるのみならず, 照応処理, 談話解析にも利用されていくと考えられる.

抄録全体を表示

PDF形式でダウンロード (1670K)
語用論的・意味論的制約を用いた日本語ゼロ代名詞の文内照応解析

中岩浩巳, 池原悟

1996 年 3 巻 4 号 p. 49-65
発行日: 1996/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.3.4_49

ジャーナルフリー

抄録を表示する抄録を非表示にする

照応要素が同一文内に現れる日本語ゼロ代名詞に対する, 語用論的・意味論的制約を用いた照応解析の手法を提案する. 本手法は, 接続語のタイプ, 用言意味属性, 様相表現のタイプの3種類の語用論的・意味論的制約に着目して, 同一文中に照応要素を持つゼロ代名詞の照応要素を決定するものである. 本手法を日英翻訳システムALT-J/E上に実現して, 日英翻訳システム評価用例文 (3718文) 中に含まれる文内照応のゼロ代名詞139件を対象に, 解析ルールを整備し, 解析精度の評価実験を行なった. その結果, 上記3種類の制約条件を用いた場合, それぞれの条件が文内照応解析に有効に働き, 対象としたゼロ代名詞が再現率98%, 適合率100%の精度で正しく照応要素を決定できることが分かった. 本手法を, 従来の代表的な手法であるCenteringアルゴリズム (再現率74%, 適合率89%) と比べると, 再現率, 適合率共に十分高い. 特に, 適合率100%と, 認定した照応関係に誤りがないことから, 本手法が機械翻訳システムでの実現に適することがわかった. 以上の結果, 提案した方式の有効性が実証された. 今後, さらに多くの文を対象に解析ルールの整備を進めることにより, 同一文内照応要素を持つゼロ代名詞の大半を復元し, 補完できる見通しとなった.

抄録全体を表示

PDF形式でダウンロード (1707K)
確率モデルによるゼロ主語の補完

江原暉将, 金淵培

1996 年 3 巻 4 号 p. 67-86
発行日: 1996/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.3.4_67

ジャーナルフリー

抄録を表示する抄録を非表示にする

主語のない日本語文に対し, 確率モデルを用いて自動的にゼロ主語を補完する手法について述べる. これは, 日英機械翻訳の前処理としての自動短文分割の後で適用されるものである. 確率モデルを用いる方法として, 従来 (1) 多次元正規分布に基づくモデルを利用するものがあった. 本稿では, 新たに3種類のゼロ主語補完のためのモデルを提案する. それらは, 連続分布に対して, (2) 正規分布に基づくGram-Charlier展開を多次元に拡張した分布 (疑似正規分布) に基づくモデル, 離散分布に対しては, (3) 1次対数線形分布, (4) 2次対数線形分布に基づくモデルである. これら4種の確率モデルについて, 補完精度を比較する実験を行った. その結果, (1)～(4) の精度は, 順に, 7 3%, 7 8%, 7 8%, 8 1%であり, 2次対数線形分布を用いる方法が最も精度が高かった. また, 補完を誤った事例について考察を加えた結果, 主語と述語の意味的整合性をより正確に計算する必要があることなどがわかった.

抄録全体を表示

PDF形式でダウンロード (1686K)
縮退型共起関係を用いた学習機能付き係り受け解析システム

安原宏

1996 年 3 巻 4 号 p. 87-101
発行日: 1996/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.3.4_87

ジャーナルフリー

抄録を表示する抄録を非表示にする

実用的な自然言語処理を開発するには大規模な言語資源が必要になる. 語彙解析では辞書が共通の言語資源である. 一方, 構文解析では文法規則が主流になってくる. 規則ベースは抽象的で解析時の挙動を理解することは困難であり, 規則の規模が大きくなると保守改良が困難になるという課題がある. 本論文では実際の文章から縮退型共起関係という2文節間の係り受け関係を品詞と付属語列で表現するデータを抽出し, 係り受け解析の唯一の言語資源として利用したシステムを示す. 本方式を用いて4000文から抽出した8000の縮退型共起関係データを用いたプロトタイプシステムを構築し, 50文の新聞社説で評価実験を行ったところ, 80%の係り受けが成功した. 本システムの特徴として, 規則駆動では困難な構文規則を学習したり拡張することが共起関係によるデータ駆動の良さから実現可能になっていることが挙げられる.

抄録全体を表示

PDF形式でダウンロード (1452K)
Mixture Probabilistic Context-Free Grammar

An Improvement of a Probabilistic Context-Free Grammar Using Cluster-Based Language Modeling

Kenji Kita

1996 年 3 巻 4 号 p. 103-113
発行日: 1996/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.3.4_103

ジャーナルフリー

抄録を表示する抄録を非表示にする

This paper proposes an improved probabilistic CFG (Context-Free Grammar), called the mixture probabilistic CFG, based on an idea of cluster-based language modeling. This model assumes that the language model parameters have different probability distributions in different topics or domains. In order to performs topic-or domaindependent language modeling, we first divide the training corpus into a number of subcorpora according to their topics or domains, and then estimate separate probability distribution from each subcorpus. Therefore, a mixture probabilistic CFG has several different probability distributions for CFG productuions. The language model probability of a sentence is calculated as the mixture of these probability distributions. The mixture probabilistic CFG enables us to make a context-or topic-dependent language model, and thus accurate language modeling would be possible. The proposed model was evaluated by calculating test-set perplexity using the ADD (ATR Dialogue Database) corpus and a Japanese intra-phrase grammar. The mixture probabilistic CFG had a test-set perplexity of 2.47/phone, while simple probabilistic CFG had a test-set perplexity of 2.77/phone. We also conducted speech recognition experiments using three language models, including pure CFG (without probabilities), simple probabilistic CFG, and the mixture probabilistic CFG. In our experiments, the mixture probabilistic CFG attained the best performance. The proposed model was also evaluated using sentence-level clustering. This evaluation used the dialogue corpus in which each utterance is annotated with an utterance type called IFT (Illocutionary Force Type). Using these IFTs, we divided the corpus into 9 clusters, and then estimated production probabilities from these clusters. Without IFT clustering, the perplexity was 2.18 per phone, but using IFT clustering, the perplexity was reduced to 1.82 per phone.

抄録全体を表示

PDF形式でダウンロード (919K)
日本語の文法および未知の認知単位の自動獲得のための一方法

横田和章, 亀田弘之, 藤崎博也

1996 年 3 巻 4 号 p. 115-128
発行日: 1996/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.3.4_115

ジャーナルフリー

抄録を表示する抄録を非表示にする

筆者らは, コーパスに基づいて形態素を基本とした日本語文法を自動獲得する方法を既に提案している. 本論文は, この方法における処理単位として, 形態素の代わりにより長い単位-認知単位-を用いた新しい方法を提案するものである. 認知単位は, 人間を被験者とした知覚実験の結果から得られた人間の文解析の単位である. こうした, 形態素より長い単位を解析に用いることにより, 構文解析における経路数を抑えることができる. しかし, 単純に認知単位を辞書に登録して用いるだけでは, 未知認知単位の出現確率が高まり, 結果として文解析の正解率が低下する. この現象を抑えるため, 既知認知単位から未知認知単位を推定する新しい方法を更に取り入れた. この方法で天気概況文コーパスを処理し, 得られた文法に基づき構文解析を行った結果, 形態素を処理単位とした解析に比べ高い処理効率を得ることができた.

抄録全体を表示

PDF形式でダウンロード (1150K)
認知単位のbigramを用いた日本語文解析の一方法

横田和章, 藤崎博也

1996 年 3 巻 4 号 p. 129-139
発行日: 1996/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.3.4_129

ジャーナルフリー

抄録を表示する抄録を非表示にする

現在, 自然言語処理システムの多くは, 処理単位として形態素を用いているが, 人間はもっと大きな単位で文を処理していることが既に分かっている. この単位を認知単位と呼ぶ. この知見から, 人間の文解析処理は, 認知単位の検出処理と, 検出した認知単位の取捨選択の2段階に分離できるものと考えられている. 本論文では, この考えに基づき, 第一段階として状態遷移図を用いて認知単位を検出し, 第二段階としてbigramを用いて認知単位を選択する, 計二段階からなる文解析法を提案するものである. この方法を用いて誤りを含んだテキストに対し誤り訂正を行う実験を行った結果, 形態素を単位としたbigramを用いるよりも良い結果を得ることができた.

抄録全体を表示

PDF形式でダウンロード (1959K)

J-STAGEへの登録はこちら（無料）