自然言語処理

話し言葉と書き言葉

河原達也

2004 年 11 巻 4 号 p. 1-2
発行日: 2004/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.11.4_1

ジャーナルフリー

PDF形式でダウンロード (217K)
教師なし隠れマルコフモデルを利用した最大エントロピータグ付けモデル

風間淳一, 宮尾祐介, 辻井潤一

2004 年 11 巻 4 号 p. 3-23
発行日: 2004/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.11.4_3

ジャーナルフリー

抄録を表示する抄録を非表示にする

本論文では, 教師なし学習によって推定された隠れマルコフモデル (HMM) の隠れ状態を最大エントロピー (ME) モデルの素性として利用するタグ付けモデルを提案する.教師なし学習された確率モデルを本手法に従って利用することにより, タグ付きコーパスが少ない状況でのタグ付け器作成コストを削減することが可能となる.実験では, 英語品詞タグ付けと日本語の単語分割を対象として, 少量のタグ付きコーパスで学習する場合の精度が本手法により改善されることを示し, 提案手法がタグ付け器作成のコスト削減に寄与することを実証する.さらに, 英語品詞タグ付けでタグ付きコーパスを最大限利用できる場合には, 最高水準の精度(96.84%) を達成し, 品詞タグ付けモデルとしても優れていることを示す.

抄録全体を表示

PDF形式でダウンロード (2309K)
A Description of Core Concepts for Basic Verbs in Japanese and English based on their Recognition Primitives

Kenji Watanabe, Masahiro Miyazaki

2004 年 11 巻 4 号 p. 25-66
発行日: 2004/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.11.4_25

ジャーナルフリー

抄録を表示する抄録を非表示にする

This paper will report on how a new system of semantic processing could generatea breakthrough in concepts free from the limitations of conventional semantic processingbased on existing case patterns in existing thesauri.We will also discuss, inorder to realize a more advanced system of semantic processing, what kind of linguisticknowledge is needed.Finally, we will examine how to collect and structuralizethis knowledge.
Our assumptions are as follows: 1.A polysemy has one basic semantic core and manymeanings are derived from this semantic core, depending on how it is interpreted.2.When dealing with abstract concepts, we replace them with more concrete entitiesthat can be directly felt with five senses.Within the framework of basic Japanese and English verbs from which basic words are derived and through which we recognizeexternal objects, their core concepts will be analyzed.We will analyze “recognitionprimitives, ” from which we acquire meanings and usages for concrete objects.Wewill try to describe perceptible notions of these core concepts by analyzing a numberof important polysemous verbs.

抄録全体を表示

PDF形式でダウンロード (3483K)
ペアワイズアライメントを用いた動詞の多義性解消

山下浩一, 吉田敬一, 伊東幸宏

2004 年 11 巻 4 号 p. 67-88
発行日: 2004/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.11.4_67

ジャーナルフリー

抄録を表示する抄録を非表示にする

本論文は動詞の多義性解消に対して新しい手法を提案するものである.単語の多義性の問題は古くから自然言語処理における最も重要な問題の一つとして位置付けられており, これまでに様々な多義性解消の試みが報告されている.従来の試みは多義語の文脈の扱いの観点から, 多義語の周辺の単語を非順序集合として用いるもの (連想関係に基づく手法) と, 構文関係を用いるもの (選択制限に基づく手法) の2つに大別できる.しかし, これらの手法はそれぞれ異った観点で手がかりを求めており, 精度の向上には限界が考えられる.本論文で筆者らが提案する手法は, 多義語の文脈として一文の依存構造木全体を用いており, 2つの手法の特長を併せ持つものである.筆者らの手法では, DNA配列の類似性評価に広く用いられているペアワイズアライメントの技法に基づいて文脈の類似性を評価する.これによって, 文脈問の類似度を柔軟かつ頑健に求めることが可能である.本手法は人手による教師付き学習を必要とするが, 多義性解消の実験からは平均81.1%の精度が得られた.

抄録全体を表示

PDF形式でダウンロード (2142K)
複合語の内部情報・外部情報を統合的に利用した訳語対の抽出

吉見毅彦, 九津見毅, 小谷克則, 佐田いち子, 井佐原均

2004 年 11 巻 4 号 p. 89-103
発行日: 2004/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.11.4_89

ジャーナルフリー

抄録を表示する抄録を非表示にする

本稿では, 機械翻訳システムの辞書に登録されておらず, かつ (対応付け誤りを含む) 対訳コーパスにおいて出現頻度が低い複合語を対象として, その訳語を抽出する方法を提案する.提案方法は, 複合語あるいはその訳語候補の内部から得られる情報と, 複合語あるいはその訳語候補の外部から得られる情報とを統合的に利用して訳語対候補に全体スコアを付ける.全体スコアは, 複合語あるいはその訳語候補の二種類の内部情報と二種類の外部情報に基づく各スコアの加重和を計算することによって求めるが, 各スコアに対する重みを回帰分析によって決定する.読売新聞とThe Daily Yomiuriの対訳コーパスを用いた実験では, 全体スコアが最も高い訳語対 (のうちのーつ) が正解である割合が86.36%, 全体スコアの上位二位までに正解が含まれる割合が95.08%という結果が得られ, 提案手法の有効性が示された.

抄録全体を表示

PDF形式でダウンロード (1729K)
発話を対象とした類似文検索と機械翻訳への適用

下畑光夫, 隅田英一郎, 松本裕治

2004 年 11 巻 4 号 p. 105-126
発行日: 2004/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.11.4_105

ジャーナルフリー

抄録を表示する抄録を非表示にする

話し言葉である発話を対象として機械翻訳を行った場合, 話し言葉特有の性質が一因となって適切な翻訳文が得られない場合がある.本論文では, 適切な翻訳文が得られなかった場合に類似文検索技術を用いることで適切な訳文を得る方法を提案する.与えられた入力文が適切に翻訳できないと判明した場合に, 翻訳可能な文を集めたコーパスから入力文の類似文を検索する.検索された類似文を機械翻訳に与えて翻訳文を得ることで, 適切な翻訳文を得ることができる.検索対象となる文 (候補文) と入力文の間の類似度は, 候補文と入力文の間で共通するN-gramの比率に基づいて算出する.さらに, 入力文にない内容語を含む候補文は対象外とすることや機能語の重みを減らすといった付加条件を加えることで精度向上を図った.日本語における類似文検索の実験では, 与えた入力文の内87T2%について検索文を出力し, それらの検索文の内60.4%は適切な類似文であった.機械翻訳と組み合わせた実験では, 翻訳不能となった入力文について類似文を検索させ, それらを機械翻訳にかけたところ, 翻訳不能文の内25.9%について適切な訳文を得ることができた.

抄録全体を表示

PDF形式でダウンロード (2243K)
自動抽出した換喩表現を用いた係り受け関係のずれの解消

清田陽司, 黒橋禎夫, 木戸冬子

2004 年 11 巻 4 号 p. 127-145
発行日: 2004/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.11.4_127

ジャーナルフリー

抄録を表示する抄録を非表示にする

質問応答システムによって収集された大量のユーザ質問文を含むコーパス中から換喩表現とその解釈表現を自動抽出し, それを質問応答システム「ダイアログナビ」におけるユーザ質問文とテキストのマッチングに応用する方法を提案する.具体的には, 換喩表現 (例: GIFを表示する) とその解釈表現 (例: GIFの画像を表示する) のペアをダイアログナビの同義表現辞書に登録することによって, ユーザ質問文とテキスト文の問の係り受け関係のずれを解消する.抽出された換喩表現・換喩解釈表現ペアについて評価を行ったところ, 大半は適切なものであった.また, テストセットを用いて実験を行った結果, 提案手法がマッチング精度を改善することがわかった.

抄録全体を表示

PDF形式でダウンロード (1795K)
日本語重文・複文を対象とした文法レベル文型パターンの被覆率特性

池原悟, 徳久雅人, 竹内 (村本) 奈央, 村上仁一

2004 年 11 巻 4 号 p. 147-178
発行日: 2004/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.11.4_147

ジャーナルフリー

抄録を表示する抄録を非表示にする

日本語の重文と複文 (但し, 述部を2つ又は3つ持つものに限る) に対して文法レベルで記述された22.1万件の文型パターンを対象に, その被覆率特性を調べ, 文型パターン方式の問題点と可能性について検討した.機械翻訳において対訳文型パターンを使用した翻訳方式は, 文型パターンに適合した入力文に対して品質の良い訳文が生成できるため, 古くから着目されてきた.しかし, 被覆率を上げるには, 大量の文型パターンが必要なこと, また, 汎化を行えば, それにつれて意味的な排他性が失われ副作用が増大することが大きな問題であった.そこで, 本稿では, 単語レベル, 句レベル, 節レベルの文型パターン辞書 (それぞれ12.1万件, 8.8万件, 1.1万件で, いずれも文法レベルで記述されている) を対象に被覆率などの特性を評価した.評価パラメータとしては, 「任意の入力文に対して適合する文型パターンの有無」を表す「再現率」 (「文型再現率」, 「文型一致率」の2種) と「適合した文型パターンの意味的な正しさ」を表す「意味適合率」 (「適合文型意味正解率」, 「適合文型正解含有率」の2種) の4種を定め, それらを使用した.その結果によれば, 「文型再現率」は, 単語レベル, 句レベル, 節レベルの順に70%, 89%, 78%で, いずれもかなり高い値を示すが, 入力文に対して多数の意味的に不適切な文型パターン (単語レベルで14件, 句レベルで165件) が適合してしまい, 適合した文型パターンの中に意味的に正しいものが含まれる割合は, 単語レベルで21%にとどまっていることなどが分かった.これらの結果に基づき, 「再現率」と「意味適合率」を向上させる方法について検討した結果では, 「再現率」は, 「任意要素」や時制, 相, 様相の記述法に大きく依存することが分かった.また, 「意味適合率」の向上を図るには, 変数に対する強力な意味的制約条件の付与や「原文任意要素」の指定基準の見直しなどが必要であることが分かった.

抄録全体を表示

PDF形式でダウンロード (3427K)

J-STAGEへの登録はこちら（無料）