自然言語処理

本誌の編集を担当して

池原悟

2006 年13 巻1 号 p. 1-2
発行日: 2006/01/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.13.1

ジャーナルフリー

PDF形式でダウンロード (323K)
言語資源を活用した実用的な対訳表現抽出

北村美穂子, 松本裕治

2006 年13 巻1 号 p. 3-25
発行日: 2006/01/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.13.3

ジャーナルフリー

抄録を表示する抄録を非表示にする

高精度の機械翻訳システムや言語横断検索システムを構築するためには, 大規模な対訳辞書が必要である.文対応済みの対訳文書に出現する原言語と目的言語の単語列の共起頻度に基づいて対訳表現を自動抽出する試みは, 対訳辞書を自動的に作成する方法として精度が高く有効な手法の一つである.本稿はこの手法をベースにし, 文節区切り情報や対訳辞書などの言語知識を利用したり, 抽出結果を人間が確認する工程を設けたりすることにより, 高精度で, かつ, カバレッジの高い対訳表現抽出方法を提案する.また, 抽出にかかる時間を削減するために, 対訳文書を分割し, 抽出対象とする文書量を徐々に増やしながら確からしい対訳表現から段階的に抽出していくという手法についても検討する.8,000文の対訳文書による実験では, 従来手法は精度40%, カバレッジ79%であったのに対し, 言語知識を利用した提案手法では, 精度89%, カバレッジ85%と向上した.さらに人手による確認工程を設けることにより, 精度が96%, カバレッジが85%と向上した.また, 16,000文の対訳文書による実験では, 対訳文書を分割しない方法では抽出時間が約16時間であったのに対し, 文書を4分割する方法では, 約9時間に短縮されたことを確認した.

抄録全体を表示

PDF形式でダウンロード (2613K)
日本語LFGを用いた副助詞の多義性解消

大熊智子, 増市博, 吉岡健

2006 年13 巻1 号 p. 27-52
発行日: 2006/01/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.13.27

ジャーナルフリー

抄録を表示する抄録を非表示にする

本稿では, 意味判定ルールを段階的に適用することにより, 副助詞「まで」, 「など」, 「だけ」が生来的に持つ曖昧性を自動的に判別する手法を提案し, その有効性を検証した.本手法では, まず着目する副助詞の前後の形態素を参照する形態素ルールを優先度に応じて適用し, 意味を決定する.次に, 形態素ルールだけではうまく判別できない構文に対して日本語LFGシステムによる構文意味解析を行い, LFGの出力結果であるf-structureの意味機能を参照する意味機能ルールを適用して多義性の解消を行う.EDRコーパスを用いた実験では, 殆どの形態素ルールで高精度の多義性解消が可能であることを実証することができた.さらに, この実験で判別精度が低かった5種類の構文 (「まで」2種, 「など」2種, 「だけ」1種) に対して, 意味機能ルールを用いて多義性の解消を行うことで, 形態素ルールよりも, 高い精度の多義性解消を確認できた.「まで」の多義性解消では, 69.6%から73.2%と58.4%から61.8%への向上, 「など」の多義性解消では29.6%から72.5%と47.2%から60.3%への向上, 「だけ」の多義性解消では55.8%から76.1%への向上を確認することができた.

抄録全体を表示

PDF形式でダウンロード (2202K)
概念の意味属性と共起情報を用いた関連度計算方式

渡部広一, 奥村紀之, 河岡司

2006 年13 巻1 号 p. 53-74
発行日: 2006/01/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.13.53

ジャーナルフリー

抄録を表示する抄録を非表示にする

我々人間は曖昧な情報を受け取り適宜に解釈することで, 会話を進めたり適切な行動を取ることができる.これは, 長年の経験により蓄積された知識から築き上げられた言葉に関する「常識」を持っているからである.人間と自然に会話できる知的なコンピュータの実現には, 単語の意味を理解するシステムの構築が必要であると考える.この実現には, ある概念から他の類似の概念ばかりでなく常識的に関連の強い概念を連想する連想メカニズムが不可欠である.そこで本稿では, 単語の意味を定義している概念ベースを利用し, 概念間の関連の強さをより一般的に評価する関連度計算方式について述べる.これまでの概念ベースの属性集合の一致度合いから概念間の関連性 (類似度) を評価する手法を拡張し, 概念空間における概念の共起情報を用いる関連度計算で補正する方式を提案する.

抄録全体を表示

PDF形式でダウンロード (4078K)
Word Sense Disambiguation by Combining Classifiers with an Adaptive Selection of Context Representation

Anh-Cuong Le, Akira Shimazu, Van-Nam Huynh

2006 年13 巻1 号 p. 75-95
発行日: 2006/01/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.13.75

ジャーナルフリー

抄録を表示する抄録を非表示にする

Word Sense Disambiguation (WSD) is the task of choosing the right sense of a polysemous word given a context. It is obviously essential for many natural language processing applications such as human-computer communication, machine translation, and information retrieval. In recent years, much attention have been paid to improve the performance of WSD systems by using combination of classifiers. In (Kittler, Hatef, Duin, and Matas 1998), six combination rules including product, sum, max, min, median, and majority voting were derived with a number of strong assumptions, that are unrealistic in many situations and especially in text-related applications. This paper considers a framework of combination strategies based on different representations of context in WSD resulting in these combination rules as well, but without the unrealistic assumptions mentioned above. The experiment was done on four words interest, line, hard, serve; on the DSO dataset it showed high accuracies with median and min combination rules.

抄録全体を表示

PDF形式でダウンロード (2084K)
二言語コーパスからの語彙知識獲得のための対訳辞書登録候補の選別

吉見毅彦, 九津見毅, 小谷克則, 佐田いち子, 井佐原均

2006 年13 巻1 号 p. 97-115
発行日: 2006/01/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.13.97

ジャーナルフリー

抄録を表示する抄録を非表示にする

機械翻訳システムの翻訳品質を改善するためなどに必要な語彙知識を獲得するためには, 対訳コーパスにおいて二言語の表現を正しく対応付ける処理と, 対応付けられた表現対を辞書に登録するか否かを判定する選別処理の二つが必要である.従来, 対応付けに関する研究は数多く行なわれてきたが, 辞書登録候補の選別に関する研究はほとんど行なわれていない.本稿では, 従来あまり扱われてこなかった選別問題を採り上げ, この問題を機械学習によって解く方法を示す.学習に用いる素性として, 二つの表現の間で異なる部分と両者に共通する部分に着目し, 差分部分や共通部分を表現する手段として, 表記 (文字, 形態素), 品詞, 概念識別子を用いる.評価実験の結果, 最も高い選別性能 (F値) を示す表現方法は文字であることが明らかになった.

抄録全体を表示

PDF形式でダウンロード (2004K)
連想知識メカニズムを用いた挨拶文の自動拡張方法

吉村枝里子, 土屋誠司, 渡部広一, 河岡司

2006 年13 巻1 号 p. 117-141
発行日: 2006/01/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.13.117

ジャーナルフリー

抄録を表示する抄録を非表示にする

会話において, まず行われるのが挨拶である.コンピュータやロボットにおいても挨拶を行うことから次へと会話が広がり人間とのコミュニケーションが円滑に行われる.本研究では会話処理の中でも特に挨拶処理についてのしくみを提案する.挨拶処理は従来テンプレートを適用するのみであり, あまり研究は行われてない.しかし, 単に用意されたテンプレートだけを用いると応答が画一化され, 設計者の作成した文章のみが出現するという問題点がある.会話文の中でも特に挨拶文は設計者の作成した文章がそのまま使われることが多い.そこで本稿で提案する挨拶処理システムにおける挨拶文は設計者が用意した挨拶知識ベースに存在しない新たな文章も作り出す.人間は言葉に関する汎用的な知識を覚え, その言葉に関する常識を持った上で会話を行っている.これと同じように, 挨拶処理において, 汎用知識と常識判断にあたる連想知識メカニズムを用いる.挨拶知識ベースにこの連想知識メカニズムを組み合わせて検討することにより, 文章を大規模に拡張し, 精錬する手法を提案する.

抄録全体を表示

PDF形式でダウンロード (6503K)
意味解析を踏まえた自動要約システムABISYS

田中信彰, 面来道彦, 野口貴, 矢後友和, 韓東力, 原田実

2006 年13 巻1 号 p. 143-164
発行日: 2006/01/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.13.143

ジャーナルフリー

抄録を表示する抄録を非表示にする

意味解析結果の語意や語間の深層格に基づく重要語抽出および重要語からの要約文生成による自動要約システムABISYSを開発した.重要語を選定するために文中の名詞に対して, 反復情報, 文脈情報, 位置情報, 見解情報, 主題・焦点情報の5つの情報から重要語になりやすさの得点を求め, これら5次元空間上のSVMによる学習に基づく線形式を用いて重要語になる優先川頁位を計算し, この上位から重要語とする.また, 重要語から要約要素語を抽出する際に, 動詞およびサ変名詞の必須格を補完することで読みやすい要約文を生成する.人手の要約との主観評価による順位付けによる他システムとの比較を行ったところ, 読みやすさの点では従来システムと同様だが, 内容カバーの点では大幅に上回る評価を得た.また要約文の95%は自然な日本語文であった.

抄録全体を表示

PDF形式でダウンロード (7516K)

J-STAGEへの登録はこちら（無料）