自然言語処理

自然言語処理研究について思うこと

私の32年間の経験から

遠藤勉

2003 年 10 巻 4 号 p. 1-2
発行日: 2003/07/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.10.4_1

ジャーナルフリー

PDF形式でダウンロード (245K)
Morpho-syntactic Rules for Detecting Japanese Term Variation: Establishment and Evaluation

Fuyuki Yoshikane, Tsuji Keita, Kyo Kageura, Christian Jacquemin

2003 年 10 巻 4 号 p. 3-32
発行日: 2003/07/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.10.4_3

ジャーナルフリー

抄録を表示する抄録を非表示にする

In this paper, we describe a rule-based mechanism that detects Japanese term variations from textual corpora. The system operates on the basis of meta-rules that map syntactic and morpho-syntactic variants of terms to the original forms of terms. The framework used here has been successfully applied to such languages as English and French, and we show here that it also works well in detecting Japanese term variants, once we properly take into account specific characteristics of the Japanese language. We also discuss the potential of this work for IR-related applications.

抄録全体を表示

PDF形式でダウンロード (2816K)
音声対話システムにおける日本語自己修復の処理

船越孝太郎, 徳永健伸, 田中穂積

2003 年 10 巻 4 号 p. 33-53
発行日: 2003/07/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.10.4_33

ジャーナルフリー

抄録を表示する抄録を非表示にする

音声対話システムが話し言葉に対応するためには, 言い直し, 助詞落ち, 倒置などの不適格性とよばれる現象に対処する必要がある. これらの不適格性の中で特に問題となるのは, 言い直しあるいは自己修復と呼ばれている現象である. しかし, 自己修復に関する既存の手法は, 自己修復を捉えるモデルと, その修正処理に問題点がある. 本論文では, それらの問題点を改善した新しい手法を提案する. そして, 提案手法を音声対話コーパスに適用した結果を基に, 提案手法の有効性と問題点について考察する.

抄録全体を表示

PDF形式でダウンロード (2128K)
A Statistical Approach to Automatic Phonetic Transcription of Japanese Orthographic Words

Wei-Bin Chang, Sachiko Morishita

2003 年 10 巻 4 号 p. 55-63
発行日: 2003/07/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.10.4_55

ジャーナルフリー

抄録を表示する抄録を非表示にする

We address the problem of automatically transcribing Japanese orthographic words into symbols representing their pronunciations. Such a function is necessary for commercial continuous speech recognition systems since there are constant needs to create new recognition lexica for new applications or purposes. Simple look-up schemes are not adequate to deal with Japanese, while methods based on morphological analysis require in-depth linguistic knowledge and development effort. In this paper, we propose a statistical approach which is based on an N-gram language model. It is assumed that the pronunciation of a character only depends on the previous one to two characters and their pronunciations. Given an orthographic word, our method outputs the most likely phonetic transcription. It is shown that our approach provides superior performance to the public-domain conversion tool KAKASI on ten out of twelve test sets.

抄録全体を表示

PDF形式でダウンロード (789K)
格フレームの対応付けに基づく用話の言い換え

鍛治伸裕, 河原大輔, 黒橋禎夫, 佐藤理史

2003 年 10 巻 4 号 p. 65-81
発行日: 2003/07/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.10.4_65

ジャーナルフリー

抄録を表示する抄録を非表示にする

本稿では, 国語辞典の見出し語を定義文の主辞で置き換えることによって用言の言い換えを行う方法を提案する. この際, 見出し語の多義性解消, 定義文中で主辞とともに言い換えに含むべき項の決定, 用言の言い換えに伴う格パターンの変換などを行う必要があり, これらを国語辞典の情報だけで行うことは不可能である. そこで, 大規模コーパスから格フレームを学習し, 見出し語と定義文主辞の格フレームの対応付けを行うことにより, これらの問題を解決する方法を考案した. 220文に対する実験の結果, 77%の精度で日本語として妥当な用言の言い換えが可能であることがわかった.

抄録全体を表示

PDF形式でダウンロード (1508K)
日本語

ウイグル語辞書の半自動作成と評価

ムフタルマフスット, 小川泰弘, 杉野花津江, 稲垣康善

2003 年 10 巻 4 号 p. 83-108
発行日: 2003/07/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.10.4_83

ジャーナルフリー

抄録を表示する抄録を非表示にする

著者らは, 既存のウイグル語-日本語辞書を基にして, 見出し語数約2万の日本語-ウイグル語辞書を半自動的に作成した. この辞書が日常よく使われる語彙をどの程度含んでいるかなどの特性を調べるために, 国立国語研究所の教育基本語彙6, 104語のうちのより基本的とされている2, 071語, およびEDR日本語テキストコーパスの出現頻度上位2, 056語に対し, 日本語-ウイグル語辞書の収録率を調査し, いずれについても約80%の収録率であることが分かった. 未収録語について, 逐一その理由を調べ, 判明した種々の理由を整理すると共に, それに基づいて未収録語を分類した. その結果, 辞書作成をする時に収録率を上げるために注意すべき点などについていくつかの知見を得ることができた. 本論文では, それらについて述べる.

抄録全体を表示

PDF形式でダウンロード (3491K)
サポートベクタマシンを用いた対訳表現の抽出

佐藤健吾, 斎藤博昭

2003 年 10 巻 4 号 p. 109-124
発行日: 2003/07/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.10.4_109

ジャーナルフリー

抄録を表示する抄録を非表示にする

本論文では, 機械学習の一手法であるサポートベクタマシンを用いて文対応付き対訳コーパスから対訳表現を抽出する手法を提案する. サポートベクタマシンは従来からある学習モデルに比べて汎化能力が高く過学習しにくいためにデータスパースネスに対して頑健であり, カーネル関数を用いることによって素性の依存関係を自動的に学習することができるという特徴を持つ.本手法では対訳モデルの素性として, 対訳辞書による素性, 語数による素性, 品詞による素性, 構成語による素性, 近傍に出現する語による素性を使用し, サポートベクタマシンに基づく対訳表現の対応度を用いて対訳表現を抽出する. 既存の手法は対訳表現の対応度の計算に単語の共起関係を利用しているためにデータスパースネスに陥りやすく, 低頻度の対訳表現の抽出は困難であるのに対して, 本手法は, 訓練コーパスによって対訳モデルをあらかじめ学習する必要があるが, 一旦モデルを学習してしまえば低頻度の対訳表現でも抽出が可能であるという特徴を持つ.

抄録全体を表示

PDF形式でダウンロード (1712K)
The Dynamics of Morphemes in Japanese Terminology

Kyo Kageura

2003 年 10 巻 4 号 p. 125-143
発行日: 2003/07/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.10.4_125

ジャーナルフリー

抄録を表示する抄録を非表示にする

This paper quantitatively analyses the role of morphemes with respect to their types of origin. Static quantitative analysis of a given data set is not sufficient for this aim, as language data in general and terminological data in particular have the specific characteristic of being “incomplete” in the sense that many unseen elements are expected in the theoretical population. Thus, the quantitative structure of morphemes in terminology should be analysed dynamically, by observing the growth pattern of morphemes. In order to allow for that, we use binomial interpolation and extrapolation. Results of analyses of the terminologies of six different domains follow, revealing interesting characteristics of the role of morphemes of different types of origin that do not manifest themselves through static quantitative analysis.

抄録全体を表示

PDF形式でダウンロード (1829K)
大規模テキスト知識ベースに基づく自動質問応答

ダイアログナビ

清田陽司, 黒橋禎夫, 木戸冬子

2003 年 10 巻 4 号 p. 145-175
発行日: 2003/07/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.10.4_145

ジャーナルフリー

抄録を表示する抄録を非表示にする

本論文では, 大規模テキスト知識ベースに基づく対話的自動質問応答システム「ダイアログナビ」について述べる.本システムは, 2002年4月からWWW上で一般公開し, パーソナルコンピュータの利用者を対象としてサービスを行っている. 実世界で用いられる質問応答システムにおいては, ユーザ質問の不明確さや曖昧性が大きな問題となる. 本システムは, 「エラーが発生した」のような漠然とした質問について, 対話的に聞き返しを行うことによってユーザが求める答えにナビゲートする. 聞き返しの方法としては, 頻繁になされる漠然とした質問に対する聞き返しの手順を記述した対話カードを用いる手法と, 自動的に聞き返しの選択肢を編集して提示する手法を組み合わせて用いている. また, 適切なテキストを正確に検索するために, ユーザ質問のタイプ, 同義表現辞書や, 日本語の文の係り受け関係などを利用している.

抄録全体を表示

PDF形式でダウンロード (6836K)
日中機械翻訳におけるテンス・アスペクトの処理

謝軍, 卜朝暉, 池田尚志

2003 年 10 巻 4 号 p. 177-200
発行日: 2003/07/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.10.4_177

ジャーナルフリー

抄録を表示する抄録を非表示にする

本稿では, 日本語のテンス・アスペクト表現を中国語に機械翻訳する手法を提案した. 具体的には, 日本語のテンス・アスペクト表現で主要な役割を果す「タ/ル/テイル/テイタ」を, 両言語の文法特徴・共起情報, 中国語述語の時間的性格を主要な手がかりとして, 中国語のアスペクト助字 (了/着/在/過) または無標識のφに翻訳するアルゴリズムを提案した. まず先行研究から両言語におけるテンス・アスペクト表現の意味用法およびその意味用法問の対応関係をまとめた. そして, 対応の曖昧さを解決するために, 機械翻訳の立場から, 「タ/ル/テイル/テイタ」と中国語アスペクト助字の対応関係を定めるアルゴリズムを提案した. 最後に, 作成した翻訳アルゴリズムを評価し, 約8割正解という良好な結果を得た.

抄録全体を表示

PDF形式でダウンロード (2232K)
日英新聞の記事および文を対応付けるための高信頼性尺度

内山将夫, 井佐原均

2003 年 10 巻 4 号 p. 201-220
発行日: 2003/07/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.10.4_201

ジャーナルフリー

抄録を表示する抄録を非表示にする

大規模な日英対訳コーパスを作ることを目的として, 1989年から2001年までの読売新聞とThe Daily Yomiuriとから日英記事対応と文対応とを得た. そのときの方法は, まず, 内容が対応する日本語記事と英語記事とを言語横断検索により得て, 次に, その対応付けられた日英記事中にある日本語文と英語文とをDPマッチングにより対応付けるというものである. しかし, それにより対応付けられた記事対応や文対応には, 間違った対応 (ノイズ) が多く含まれる. そのため, 我々は, 本稿において, そのようなノイズを避けて, 正しい対応のみを得るための信頼性の高い尺度を提案し, その信頼性の評価をした. 実験の結果, 我々の提案した尺度を用いることにより, 良質な記事対応や文対応が得られることがわかった. また, その数は, 良質な記事対応は約4万7千であり, 文対応は, 1対1対応が約15万, 1対1対応以外が約3万8千であった. これらは, 現時点で一般に利用できる日英2言語コーパスとしては最大のものである.

抄録全体を表示

PDF形式でダウンロード (2201K)

J-STAGEへの登録はこちら（無料）