自然言語処理

自然言語とプログラミング言語

田村直良

2004 年 11 巻 3 号 p. 1-2
発行日: 2004/07/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.11.3_1

ジャーナルフリー

PDF形式でダウンロード (260K)
自動構築した格フレーム辞書と先行詞の位置選好順序を用いた省略解析

河原大輔, 黒橋禎夫

2004 年 11 巻 3 号 p. 3-19
発行日: 2004/07/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.11.3_3

ジャーナルフリー

抄録を表示する抄録を非表示にする

本稿では, 日本語文章中における格要素の省略 (ゼロ代名詞) を検出し, その先行詞を同定する手法を提案する. 本手法は, 自動構築した格フレーム辞書に基づく格解析によってゼロ代名詞を検出し, 同辞書による正確な選択制限を用いてゼロ代名詞の先行詞を同定する. また, 先行詞はゼロ代名詞から近いところに存在しやすいという傾向を正確にモデル化するために, 文・文章中の構造を考慮した先行詞の位置選好順序をコーパスから学習し, これを解析で利用する. 格フレーム辞書, 先行詞の位置選好順序, さらに機械学習を統合した省略解析システムを作成し, 100記事の大規模解析実験を行った結果, ゼロ代名詞検出が適合率87.1%, 再現率74.8%, ゼロ代名詞の先行詞同定が61.8%の精度であった.

抄録全体を表示

PDF形式でダウンロード (1884K)
連想システムのための概念ベース構成法

語間の論理的関係を用いた属性拡張

小島一秀, 渡部広一, 河岡司

2004 年 11 巻 3 号 p. 21-38
発行日: 2004/07/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.11.3_21

ジャーナルフリー

抄録を表示する抄録を非表示にする

自然言語の意味を理解するコンピュータの実現には, 入力された語から関連の強い語を導き出す連想システムが必要と考える. 我々の開発した連想システムは概念ベースと, 語間の関係の深さを定量化する関連度計算アルゴリズムから構成される. 概念ベースは語の意味を語が持つ意味特徴を表す語 (属性) とその語に対する重要性を表す重みの集合で定義しているが, 本研究の目的はこの概念ベースの構築である. 最初の概念ベースは国語辞書から機械構築され, 不適切な属性が多く, 重みも不正確である. この問題に対しては, 属性信頼度を用いた精錬方式が提案されているが, 基本的に属性を増やすことはできない. 本稿では精錬された概念ベースの属性を, 語間の論理的関係を利用して拡張する方式を提案し, その有効性を, テストデータと関連度を用いた実験によって示している.

抄録全体を表示

PDF形式でダウンロード (1779K)
日本語節境界検出プログラムCBAPの開発と評価

丸山岳彦, 柏岡秀紀, 熊野正, 田中英輝

2004 年 11 巻 3 号 p. 39-68
発行日: 2004/07/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.11.3_39

ジャーナルフリー

抄録を表示する抄録を非表示にする

従来の文分割研究において, 文の分割点として利用されてきたのは, 「節」の境界である. しかしながら, 実際に文の分割点として用いられる節境界はごく一部の種類のものに限られており, 文に含まれる節境界を網羅的に検出する手法は考えられてこなかった. 我々は, 日本語の文に含まれる節境界の位置を網羅的に検出し, その種類を特定するプログラム“CBAP (Clause Boundaries Annotation Program)”を開発した. CBAPは, 形態素解析の結果を入力とし, 局所的な形態素の連接を対象としたパタンマッチによって, 147種類の節境界を検出する. CBAPを性質の異なる5種のコーパスに適用したところ, いずれのコーパスでも97%以上の検出性能が確認された. この検出結果を利用することにより, 言語学的に意味のある文の分割点を特定することができ, 従来の手法よりも柔軟に文分割を行なうことができる. また, 1～3形態素という非常に局所的な範囲のみから節境界を検出できるため, 発話に追従して処理を進めていく漸進的構文解析や同時通訳システム, また, 句点を含まない音声コーパスを対象とした発話分割処理などに有用である. 本稿では, CBAPによる節境界の検出手法を示し, 節境界を用いて文分割・発話分割処理を行なった事例をもとに, 節境界検出の有用性を述べる.

抄録全体を表示

PDF形式でダウンロード (3331K)
非線形な表現構造に着目した重文と複文の日英文型パターン化

池原悟, 阿部さつき, 徳久雅人, 村上仁一

2004 年 11 巻 3 号 p. 69-95
発行日: 2004/07/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.11.3_69

ジャーナルフリー

抄録を表示する抄録を非表示にする

要素合成法を基本とした従来の機械翻訳方式の限界を突破する方法として, 非線形な言語表現の構造を意味のまとまる単位にパターン化した文型パターン翻訳方式が期待される. 本論文では, 重文と複文を対象に, この方式の実現に必要な文型パターン辞書を試作した. 具体的には, 100万件の日英対訳コーパスから2つ又は3つの述部を持つ重文と複文合計15万件を抽出し, 単語レベル (12.8万件), 句レベル (10.5万件), 節レベル (1.3万件) の3種類のグループからなる文型パターン辞書 (合計24.6万件, 異なり22.1万件収録) を作成した. 各文型パターンは, いずれも形態素解析によって得られる文法情報を用いて記述することとし, 対訳標本文に含まれる線形な表現要素を半自動的に変数化, 関数化することなどにより作成したものである. 従来, 大規模な文型パターン辞書の開発は, 文型パターン間の意味的排他性実現の困難性と膨大な開発コストが問題となるため, 適用対象を限定するなど小規模な実現例しか見られなかった. しかし, 今回の試作によって, ほぼすべての標本文 (99%) が多くの線形要素 (平均4～5カ所) を持つことが分かった. また, それらの要素を半自動的に関数化, 変数化を行うことにより, 文型パターンの開発コストは人手に頼る方法の約1/10に削減できた. これにより, 実験的検討に必要な規模の文型パターン辞書を構築することができた.

抄録全体を表示

PDF形式でダウンロード (3150K)
日中機械翻訳における否定文の翻訳

卜朝暉, 池田尚志

2004 年 11 巻 3 号 p. 97-122
発行日: 2004/07/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.11.3_97

ジャーナルフリー

抄録を表示する抄録を非表示にする

日中機械翻訳において, 日本語の否定文を中国語に翻訳する際, 中国語否定辞の訳し分けと文中での否定辞の位置の決定は二つの大きな問題であり, 市販の日中MTシステムでも, 否定文の翻訳に関する誤りが多く見られる. その原因は次の2点にある.
(i) 否定辞の対応が一対多である. 日本語の基本的な否定辞は「ない」であるが, 中国語に翻訳されると, その否定の意味と文法上の規定により, 「不, 没 (没有), 別」の三つの可能性がある.
(ii) 否定辞の文中での位置も相当に異なっている. 日本語の「ない」はいつでも述語に後接しているが, 中国語の「不, 没 (没有), 別」は否定の焦点と中国語の構文上の約束によって, 謂語, 状語, あるいは補語の前などに現れる.
我々は日中機械翻訳システムjaw/Chineseを開発中であるが, そこでは否定文の翻訳は, 否定辞を除いた基本文の翻訳はパターン変換処理によって行い, 否定辞の翻訳は中国語否定辞の選択規則と否定辞の位置規則を用いて翻訳する. 本論文では日中両言語における否定文を分析し, (i) に対して, 日本語文の構文特徴, 中国語文の構文特徴述語とその連用修飾語の属性などを利用して否定辞の選択規則をまとめた.(ii) については否定焦点の日本語と中国語構文上での反映の相違, 及び中国語否定辞の構文上での位置制限と結びつけて考察し, 否定焦点の曖昧性保留も検討した上, 機械で処理できる形で位置判定規則を示した. そしてその二つの規則を中心として, 否定文の翻訳方法を提案した. 日英対訳例文集から抜き出した約1000文中の113文の否定文に対して, 手作業で実験評価した結果, 約94%の精度であった.

抄録全体を表示

PDF形式でダウンロード (2649K)
語の属性を利用した大語彙確定のための音声対話インタフェース

大森久美子, 斎藤博昭

2004 年 11 巻 3 号 p. 123-147
発行日: 2004/07/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.11.3_123

ジャーナルフリー

抄録を表示する抄録を非表示にする

本稿では, 大語彙を効率良く絞り込み確定するための音声対話制御手法を提案する。データの階層構造を利用した絞り込みができない大語彙を認識対象とする従来システムでは, 認識結果が誤りの場合, 正解が提示できるまで利用者に発話を要求し, 認識, 提示確認を繰り返す. 対象が大語彙であるほど誤認識を生じる可能性が高いことから, 繰り返し回数が多くなることが予想され, 利用者のストレスは増大する. 我々は, 発話要求, 認識, 提示確認の繰り返しではなく, 絞り込みに効果のある情報を尋ねる対話により大語彙を確定する対話制御手法を考案した. 本稿では, 大語彙を絞り込むために尋ねる情報を属性と呼ぶ. 我々は, 大語彙をどの程度絞り込むことができるかという属性の有効度を, 属性そのものの確定難易度と属性確定による大語彙に対する曖昧性減少度合いの2要素を用いて定義した. 87, 944種の個人姓に対して, 文字数, 頭文字, 先頭に使用される漢字の読み仮名を属性として採用し, 絞り込み度合いを評価したところ, 有効度は属性の選択基準として有用であることを確認した. 次に, 有効度を利用した大語彙確定対話制御手法を個人姓確定に適用し実装した. 発話要求, 認識, 提示確認のみを繰り返して誤認識を修正する対話手法, 及び人間オペレータの対応と比較した結果, 提案手法は, 利用者を飽きさせることなく大語彙を絞り込み誤認識を修正できることを確認した.

抄録全体を表示

PDF形式でダウンロード (2855K)
結合価文法による動詞と名詞の訳語選択能力の評価

金出地真人, 徳久雅人, 村上仁一, 池原悟

2004 年 11 巻 3 号 p. 149-164
発行日: 2004/07/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.11.3_149

ジャーナルフリー

抄録を表示する抄録を非表示にする

本稿は, 日英機械翻訳での動詞および名詞の訳語選択における結合価文法の能力を実験的に明らかにする. 結合価文法を用いると, 原言語文における用言と格要素の意味的用法が限定されるため, 正しい訳語選択ができると考えられてきた. しかし, 結合価文法は, 知識ベースの開発が困難であることから, その有効性が明らかにされていなかった. 近年, 14, 800個の結合価パターンが登録された大規模辞書「日本語語彙大系」が開発された. そこで, 本稿は, まず, IPAL辞書に登録されている基本動詞および基本名詞に関する例文, 数千文について機械翻訳を実施し, その結果を翻訳家による英訳と比較することで, 動詞および名詞の訳語選択の正確さを検証する. 次に, 機械が翻訳に誤った例文について翻訳過程を分析し, 誤り原因と改善の可能性を検討する. これらの結果, 訳語選択の正解率は, 基本動詞が89%, そして, 基本名詞が91%であった. ベースラインとして和英辞書の先頭訳語を選択する場合と比較すると, 動詞の訳語選択において結合価文法は顕著な効果が確認されたが, 名詞の訳語選択についてはそれ程の効果は認められなかった. また, 結合価文法を用いた訳語選択の方式上の正解率の限界, すなわち, 正解を導く結合価パターンが全て登録され, かつ, 形態素解析やパターン照合が完全に成功することを仮定した場合の正解率の限界は, IPAL辞書に関連する例文において, 動詞が99%, 名詞が97%となると推定した.

抄録全体を表示

PDF形式でダウンロード (1636K)
英語教育のための分野特徴単語の選定尺度の比較

内山将夫, 中條清美, 山本英子, 井佐原均

2004 年 11 巻 3 号 p. 165-197
発行日: 2004/07/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.11.3_165

ジャーナルフリー

抄録を表示する抄録を非表示にする

特定分野の英語を効率的に学習するためには, その分野に特徴的な語彙を選定し, その語彙を学習するのが効果的である. しかし, 人手による語彙の選定は, コストが高く, かつ, その質は, 選定者の主観や経験に大きく依存する. そのため, 特徴的な単語を機械的に抽出することにより, 語彙の選定作業のコストを低くし, かつ, 客観的な語彙選定を助けることは重要である. このような背景の下, 本稿では, 特徴的な単語が抽出可能かという観点から, 各種統計的尺度の有効性, および, 各種尺度を統合した複合尺度の有効性を比較検討した. その結果, 主に以下のことが, 明らかになった. まず, 英語教育用に選定された単語リストとの一致という観点からは, 複合尺度の有効性が示された. また, 各種の単独尺度の中では, 補完類似度が有効であった. 更に, 各種尺度により抽出される単語は, それぞれ, 異なったレベルにおける学習者に有効であると考えられることが分かった.

抄録全体を表示

PDF形式でダウンロード (3423K)

J-STAGEへの登録はこちら（無料）