自然言語処理

英語で書く

田中英輝

2003 年 10 巻 5 号 p. 1-2
発行日: 2003/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.10.5_1

ジャーナルフリー

PDF形式でダウンロード (214K)
自然言語の構文解析のためのLR解析表の圧縮法

秋葉友良, 伊藤克亘

2003 年 10 巻 5 号 p. 3-21
発行日: 2003/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.10.5_3

ジャーナルフリー

抄録を表示する抄録を非表示にする

LR構文解析法で利用するLR解析表のサイズを削減する新規の手法を提案する. 提案法は, (1) 従来のLR表縮小方法と同時に適用可能, (2) 提案法によって作成されたLR表は従来のLR構文解析アルゴリズムでほぼそのまま利用可能, (3) 解析結果や解析効率に影響を与えない, といった特徴を持つ. 提案法を実際の自然言語処理用文法に適用したところ, 元の文法のサイズによって, 約60%程度から, 25%程度まで, LR表が圧縮されることを確認した.

抄録全体を表示

PDF形式でダウンロード (1767K)
大語彙を対象とした音声対話インタフェースにおける自然な応答生成

大森久美子, 斎藤博昭

2003 年 10 巻 5 号 p. 23-40
発行日: 2003/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.10.5_23

ジャーナルフリー

抄録を表示する抄録を非表示にする

本稿は, 「思い込み応答」戦略を取り入れた大語彙音声対話インタフェースを提案する. この戦略は, 人間同士の対話において発話対象が広範囲に及ぶ場合, 聞き間違えにくい対象と間違えやすい対象が存在することに着目したもので, 聞き間違えやすい対象を誤認識しても利用者にストレスを与えないことを利用している. 大語彙として16万種の個人姓に焦点を当て, 音声認識精度と語彙網羅率の観点から, 聞き間違えてはならない10,000種の思い込み対象を選択できた. 更に, 思い込みが外れた場合への対応として, 思い込みの結果を利用者に応答として提示している時間を利用して, 思い込み範囲外の残りの姓を対象とした裏認識処理を並行して進める仕組みを提案した. 市販の認識エンジンを利用して, この仕組みと思い込み応答を組み合わせた個人姓確定インタフェースを実装した. 思い込み応答は, 現状の音声認識技術を用いたインタフェースにおいて, 入力対象が大語彙であってもストレスを与えない結果を利用者に提示できる戦略であることを確認した.

抄録全体を表示

PDF形式でダウンロード (1976K)
1次元自己組織化マップを用いた高次元データの高速近傍検索

北研二, 獅々堀正幹

2003 年 10 巻 5 号 p. 41-54
発行日: 2003/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.10.5_41

ジャーナルフリー

抄録を表示する抄録を非表示にする

高次元空間における最近傍検索 (nearest neighbor search) は, マルチメディア・コンテンツ検索, データ・マイニング, パターン認識等の分野における重要な研究課題の1つである. 高次元空間では, ある点の最近点と最遠点との問に距離的な差が生じなくなるという現象が起こるため, 効率的な多次元インデキシング手法を設計することが極度に困難となる. 本稿では, 1次元自己組織化マップを用いた近似的最近傍検索の手法を提案し, 提案した手法の有効性を類似画像検索と文書検索の2種類の実験により評価する. 自己組織化マップを用いて, 高次元空間での近傍関係をできる限り保ちつつ, 高次元データを1次元空間へ配置し, 1次元マップから得られる情報で探索範囲を限定することにより, きわめて高速な最近傍検索が可能となる.

抄録全体を表示

PDF形式でダウンロード (2404K)
人間による翻訳文と機械翻訳文の語彙的差異の計量分析

吉見毅彦

2003 年 10 巻 5 号 p. 55-74
発行日: 2003/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.10.5_55

ジャーナルフリー

抄録を表示する抄録を非表示にする

本稿では, ニュース記事から無作為抽出した英文を英日機械翻訳システムで翻訳した結果と, これらの英文を人間が翻訳した結果を照らし合わせ, 両者の間にどのような違いがあるのかを計量的に分析した. その結果, 次のような量的な傾向があることが明らかになった.(1) 人間による翻訳に比べ, システムによる翻訳では, 英文一文が複数の訳文に分割されにくい傾向が見られる.(2) システムによる翻訳と人間による翻訳の間で訳文の長さの分布に統計的有意差が認められる.(3) 用言の連用形と連体形の分布に有意差が認められ, システムによる翻訳のほうが人間による翻訳よりも複雑な構造をした文が多いことが示唆される.(4) 体言と用言の分布には有意差は認められない.
さらに, 動詞と名詞に関して比較検討を行ない, システムによる翻訳を人間による翻訳に近づけるために解決すべき課題をいくつか指摘した.

抄録全体を表示

PDF形式でダウンロード (1916K)
用例ベース翻訳のための対訳文の句アライメント

荒牧英治, 黒橋禎夫, 佐藤理史, 渡辺日出雄

2003 年 10 巻 5 号 p. 75-92
発行日: 2003/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.10.5_75

ジャーナルフリー

抄録を表示する抄録を非表示にする

用例ベース翻訳を実現するためには, 大量の用例が必要である. 本研究は, 対訳文を用例として利用できるようにするために, 対訳文に対して句アライメントを行なう手法を提案する. 従来の句アライメントでは, 語アライメントを得てから, その情報をもとに句アライメントに拡張する手法が方式が多かった. 本手法では基本句という文節に相当する単位を導入して, 基本句間のアライメントを行なう. 実験を行なった結果, 良好な結果を得た.

抄録全体を表示

PDF形式でダウンロード (6954K)
異なるコーパスにおける重要文抽出の結果と素性の分析

野畑周, 関根聡, 井佐原均

2003 年 10 巻 5 号 p. 93-120
発行日: 2003/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.10.5_93

ジャーナルフリー

抄録を表示する抄録を非表示にする

本論文では, 三種類の異なるコーパスに対する我々の自動要約システムの評価と, その要約データの分析結果について述べる. 我々は重要文抽出に基いた要約システムを作成し, そのシステムを用いて日本語・英語双方の新聞記事を対象にした要約評価ワークショップに参加し, 良好な評価結果を得た. また日本語の講演録を対象として重要文抽出データを人手によって作成し, そのデータに対して要約システムの実験・評価を行った. さらにシステムの評価結果に加えて, 重要文抽出に用いられる主な素性の振舞い・素性の組合せによる重要文の分布の違いなどを各々の要約データにおいて分析した結果を示した.

抄録全体を表示

PDF形式でダウンロード (2682K)
初期質問文から蓄積された質問応答への効果的マッチング法

松井くにお, 田中穂積

2003 年 10 巻 5 号 p. 121-138
発行日: 2003/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.10.5_121

ジャーナルフリー

抄録を表示する抄録を非表示にする

カスタマサービスとして, ユーザから製品の使用方法等についての質問を受けるコールセンターの需要が増している. ユーザからの質問に的確に応答するためには, 次々に開発される新製品の知識が必要となる. 応対するオペレータは, 過酷な業務のため定着率が低く, 企業にとってもレベルの高い人材を継続して維持することは, 人件費や教育などのコストがかかり, 問題となっている.
本研究は, ユーザが自ら問題解決できるような, 対話的ナビゲーションシステムを実現する基礎技術を開発することにより, コールセンターのオペレータ業務の負荷を軽減することを目的とする. Web上での質問応答システムにおいてユーザが初期に入力する自然言語による状況説明や質問文を分析したところ, 20文字以下の質問文が7割を占めていた. 一方, コールセンターでは, オペレータが, 過去のユーザとのやり取りの結果を, 質問と応答の要約文として蓄積している. そこで, 本研究では, ユーザが初期に入力する20文字前後の比較的短い質問文を対象とし, その質問文から, コールセンターで蓄積した過去の質問の要約文を引き出し, それに予め付与された応答をそのまま回答する手法を採用する. しかし, ユーザの与える20文字以下の短い質問文と蓄積された要約文との単純なマッチングでは, 多数の要約文が引き出されることが多いため, システムからユーザに新たなキータームの入力を促してユーザの意図する適切な要約文に速やかに到達できるような対話的ナビゲーション技術の開発が最も重要な研究課題となっている. 対話的ナビゲーションを実現するために, ユーザが初期に入力した質問文中のどのようなタームが最適な要約文の検索に重要であるかを判定する方式として, 入力した質問と要約文とのマッチングが成功したものから一定の基準によってタームを変更する方式 (サクセスファクタ分析方式と呼ぶ) を開発した. この分析の結果から, 主辞を修飾するタームをユーザの質問文に対して対話的に補うことがマッチングの精度に大きく影響し, 極めて有効なことを実験的に明らかにした.

抄録全体を表示

PDF形式でダウンロード (6080K)
連想概念辞書の距離情報を用いた重要文の抽出

岡本潤, 石崎俊

2003 年 10 巻 5 号 p. 139-151
発行日: 2003/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.10.5_139

ジャーナルフリー

抄録を表示する抄録を非表示にする

大量の文書情報の中から必要な部分を入手するために, 自動要約技術などによって文書の量を制御し, 短い時間で適確に内容を把握する必要性が高くなってきている. 自動要約を行なうには文書中のどの箇所が重要なのかを判断する必要があり, 従来の重要文の抽出方法には単語の出現頻度にもとづいた重要語の計算方法などがある. 本論では連想概念辞書における, 上位/下位概念, 属性概念, 動作概念などの連想関係を用いて文書中の単語の重要度を計算し重要文を抽出する手法を提案して有効性を示す. 連想概念辞書は, 小学校の学習基本語彙を刺激語とし大量の連想語を収集して構造化すると同時に, その連想語との距離が定量化されている. また既存の重要語抽出法と本手法での抽出結果とを, 人間が行なった要約結果と比較することによって評価した. 従来の手法に比べて連想関係を計算に含めることによって要約精度が人間の要約に近く, 本手法によって改良されることがわかった.

抄録全体を表示

PDF形式でダウンロード (1353K)

J-STAGEへの登録はこちら（無料）