自然言語処理

知識処理の時代

長尾真

2006 年13 巻2 号 p. 1
発行日: 2006/04/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.13.2_1

ジャーナルフリー

PDF形式でダウンロード (130K)
語の反復距離に基づく段落境界の認定

中野滋徳, 足立顕, 牧野武則

2006 年13 巻2 号 p. 3-26
発行日: 2006/04/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.13.2_3

ジャーナルフリー

抄録を表示する抄録を非表示にする

テキストを意味段落に分割する方法として, 語の反復距離に基づく話題結束度による認定手法を提案する. 意味段落とはテキスト中に含まれるまとまった話題の単位である. 文をまたがって出現する反復語の文間距離をもとに話題形成の尺度化を行い話題結束力を算出する. 語が近接して反復する区間に話題形成ポテンシャルが生じ, それが話題結束力を形成するという話題境界判定モデルを考案した. 社説記事を連結して, 記事境界と段落分割点とが一致したときを正解とする境界判定実験を行った結果, 再現率67.8%, 適合率61.8%の精度を得た. 極めて簡単な方法で段落境界を判定することができ, 記事以外に随筆等の比較的長いテキストに対しても有効である.

抄録全体を表示

PDF形式でダウンロード (2282K)
日本語単語分割を題材としたサポートベクタマシンの能動学習の実験的研究

颯々野学

2006 年13 巻2 号 p. 27-41
発行日: 2006/04/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.13.2_27

ジャーナルフリー

抄録を表示する抄録を非表示にする

本論文では, サポートベクタマシンの能動学習が一定以上の複雑さを持つ自然言語処理のタスクに対してどれだけうまく働くかを議論している. 日本語の単語分割をその題材として用いる. 特に, 能動学習のプールのサイズが学習曲線にどう影響するのか議論する. ある精度を達成しようと考えるとき, 大きなプールを用いた場合には, 学習の初期の段階で, 小さなプールを用いた場合よりも多くの正解事例が必要になることが分かった. さらに, プールに徐々にラベルなし事例を加えていくことで, 多数のラベルなし事例を効果的に使う新しい方法を提案する. 実験によれば, 従来手法よりも提案手法のほうが少ないラベル付き事例で済むことが分かった. 97.0%の精度を得るのに, 我々の手法では, 従来の能動学習手法で必要とされるラベル付き事例数の59.3%で済み, ランダムサンプリングで必要とされるラベル付き事例数の17.4%で済ますことができた.

抄録全体を表示

PDF形式でダウンロード (1341K)
共起情報及び複数格の組み合わせを考慮した係り受け解析

阿辺川武, 奥村学

2006 年13 巻2 号 p. 43-62
発行日: 2006/04/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.13.2_43

ジャーナルフリー

抄録を表示する抄録を非表示にする

本稿では, 大規模コーパスから収集した統計情報を用いて, 日本語係り受け解析の精度を向上させる手法を提案する.提案モデルでは, 従来の統計的機械学習アルゴリズムを用いた解析において有効に活用されていない2つの特徴を考慮している.1つは同じ用言を係り先とする格要素間の従属関係であり, もう1つは, 格要素・用言間の共起関係である.これらの関係は, 大規模コーパスから自動収集した係り受け情報から得ることができる.提案モデルが係り受け解析に有効であるかを実証するために, 既存の係り受け解析システムが出力した複数の解析候補をrerankingする方法で実験を行った.その結果, 既存システムの係り受け解析精度をさらに向上させることができた.また, 用言が名詞を連体修飾しているとき, 被修飾名詞とその用言の関係が係り受けに影響を及ぼすことを示し, 提案モデルに連体修飾節の解析を統合する手法を提案する.

抄録全体を表示

PDF形式でダウンロード (2120K)
コーパスを利用した効率的な翻訳規則の拡充

山田節夫, 今村賢治, 山本和英

2006 年13 巻2 号 p. 63-78
発行日: 2006/04/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.13.2_63

ジャーナルフリー

抄録を表示する抄録を非表示にする

現在, 多くのルールベースまたはパターンベースの実用的な機械翻訳システムにおける翻訳規則は, 人手によって拡充されているが, 非常に多くの時間と労力を必要としている.そこで, 本論文では, 単言語コーパスに含まれる言語現象を基に, 人が効率的に翻訳規則を拡充する方法を提案する.翻訳規則は原言語知識と目的言語知識から構成されている.原言語知識は, 既存の機械翻訳システムで使われている原言語知識をキーとしてコーパスを検索することによって, 獲得する.また, 目的言語知識は, 既存の機械翻訳システムによって翻訳された部分翻訳結果を利用することによって, 獲得する.人が, これら原言語知識や目的言語知識を使って翻訳規則を拡充すると, 従来手法に比べて, 全体の翻訳品質を下げずに時間的コストを削減できたことを実験によって示す.

抄録全体を表示

PDF形式でダウンロード (1701K)
知覚的群化に基づく参照表現の生成

船越孝太郎, 渡辺聖, 栗山直子, 徳永健伸

2006 年13 巻2 号 p. 79-97
発行日: 2006/04/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.13.2_79

ジャーナルフリー

抄録を表示する抄録を非表示にする

参照表現とは, 複数の物体のなかから特定の物体を識別するための言語表現である.これまでに提案されている参照表現の生成手法は, 物体の属性と物体間の二項関係のみを用いていた.しかしながら, このようなアプローチでは, 弁別的な属性や二項関係が存在しない状況において適当な参照表現を生成できない.この問題を克服するため, 本論文では, 知覚的群化と多項間関係を用いた参照表現の生成手法を提案する.人間が知覚的に認識しやすい物体の群を利用することで, 「左の三つの玉のうちの一番右の玉」のような表現を生成することが可能になる.我々は42人の被験者に対して心理実験を行ない, 知覚的群化を用いた参照表現を収集した.生成アルゴリズムは収集した表現に基づいて構築した.23人の被験者を用いた評価実験により, 提案手法が適切な参照表現を生成できることが確認できた.

抄録全体を表示

PDF形式でダウンロード (7550K)
交通事故事例に含まれる事故原因表現の新聞記事からの抽出

酒井浩之, 梅村祥之, 増山繁

2006 年13 巻2 号 p. 99-123
発行日: 2006/04/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.13.2_99

ジャーナルフリー

抄録を表示する抄録を非表示にする

新聞記事に含まれる交通事故事例の記事から事故原因を表す表現 (例えば, 「ハンドル操作を誤った」) を自動的に抽出する手法を提案する.抽出結果に基づき交通事故事例の原因を分析することで, 例えば交通事故防止装置の開発に役立てることができる.本手法では, まず, 前処理としてSupport Vector Machines (SVM) を用いて新聞記事コーパスから交通事故事例の記事を抽出し, 抽出された交通事故事例の記事から事故原因を表す表現を, 新聞記事コーパスから得られる統計的な情報を使用して抽出する.具体的には, 事故原因を表す表現がいくつか係る表現を種表現と定義して人手で1つ与え, 種表現に係っている事故原因表現を自動的に取得する.そして, 取得したいくつかの事故原因表現から自動的に種表現を取得し, さらに, 取得した種表現から再び事故原因表現を取得する.このプロセスを繰り返すことで, 事故原因表現, および, その種表現を取得していく.本手法を評価したところ, 事故原因表現抽出の精度は77.2%であり, 再現率は38.6%であった.また, 事故原因表現, および, 種表現を共に含んでいる文, もしくは, 事故原因表現に「らしい」が追加された表現を含む文を原因文と定義し, その抽出精度, 再現率を求めたところ, 精度が87.2%, 再現率が40.8%であった.

抄録全体を表示

PDF形式でダウンロード (12819K)
対象の用途と準備を表す表現の自動獲得

鳥澤健太郎

2006 年13 巻2 号 p. 125-144
発行日: 2006/04/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.13.2_125

ジャーナルフリー

抄録を表示する抄録を非表示にする

知的エージェントによるプラン認識などの推論を最終的な目標として, 人工物の用途とその用途を達成するための準備を表す自然言語表現を自動獲得する手法を開発した.ここで, 例えば人工物「本」の用途は「読む」ことであって, 「本を買う」「本を開く」といった表現は「本を読む」ことの準備であると見なされる.開発した手法は, 単語間の種々の共起確率を考慮しつつ, 与えられた名詞に関する用途, 準備を表す表現の候補を収集し, 最終的には教師あり学習によって用途, 準備を出力する.得られた用途, 準備に関する表現は, 人工物に関してユーザーが通常取る行為とその順序, すなわちプランの一部を表すものと考えられ, 様々な知的な推論に利用できる.より具体的なアプリケーションの例を挙げれば, 人工物に関してインターネット上で情報を収集する際のナビゲーションなどに利用できるものと考えている.

抄録全体を表示

PDF形式でダウンロード (2360K)
日本語-ベトナム語機械翻訳における「N₁のN₂」の処理

NGUYEN MY CHAU, 田中友樹, 池田尚志

2006 年13 巻2 号 p. 145-168
発行日: 2006/04/10
公開日: 2011/06/07

DOIhttps://doi.org/10.5715/jnlp.13.2_145

ジャーナルフリー

抄録を表示する抄録を非表示にする

本稿では日本語-ベトナム語機械翻訳システムにおける日本語の名詞修飾構造「N₁のN₂」の翻訳処理について述べる.日本語では名詞が名詞を修飾する場合は必ず「の」を介して「N₁のN₂」という形を取る.「の」によって結びつけられた2つの名詞の意味関係は, 連用補語の連体化, 述語名詞の連体修飾語化, 所有/全体・一部の関係など多様である.ベトナム語ではこの構造は, N₁とN₂の意味関係に依って様々な前置詞 (σ, có, cua, 等) を使い分けたり, いくつかの異なった語順の多様な形で表現される.日本語を英語に翻訳する場合もほとんど同様の問題があり, 様々な前置詞 (at, in, with等) を使い分ける.「N₁のN₂」については, これまでに言語学上の研究としても, 機械翻訳に関する研究としても多くの研究がなされてきたが, 研究対象とされてきた言語対はほとんどが日本語-英語である.本稿で対象とするベトナム語については, 日本語-ベトナム語機械翻訳という観点からの研究はまだほとんど無い.本稿では, ベトナム語の名詞-名詞修飾構造を日本語の名詞-名詞修飾構造「N₁のN₂」との比較対照において6種類に分析整理し, 日本語の「N₁のN₂」のベトナム語への翻訳規則を提案した.また, これらの規則を日本語-ベトナム語機械翻訳システムjaw/Vietnameseに実装して, 翻訳実験を行った.270例の「N₁のN₂」に対して約70%の正解率を得ることができた.構文的特徴や意味属性を手がかりに「N₁のN₂」の訳し分けの規則を考えるという点では, 対象が英語である場合と比較して特に異なる手法を必要とするというわけではない.重要なことはベトナム語の言語事象の収集と分析であり, 日本語との対応関係の分析である.本稿はこれらの点についての研究を行ったものである.

抄録全体を表示

PDF形式でダウンロード (2513K)
「決定木」分析によるコーパス研究の可能性: 副詞と共起する接続助詞「から」「ので」「のに」の文中・文末表現を例に

玉岡賀津雄

2006 年13 巻2 号 p. 169-179
発行日: 2006/04/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.13.2_169

ジャーナルフリー

抄録を表示する抄録を非表示にする

SPSS社のAnswerTree3.0Jに搭載されたCHAIDで決定木を描く統計手法が, コーパスから得られる2つ以上の変数からなる共起頻度を分析するのに有効であるかどうかを検討した・本研究では, 3種類の接続助詞「から」「ので」「のに」が, 7種類の副詞「何しろ」「何せ」「せっかく」「現に」「どうせ」「実際」「本当に」と共起する場合に, 文中と文末の表現でどちらが使われるかを, 新潮文庫100冊を使って解析した.決定木 (図1を参照) は, 3種類の接続助詞と7種類の副詞の共起頻度によって, 接続助詞の位置が文中にくるか文末にくるかを予測するという分析結果を描いたものである.決定木から5つの特徴を読み取ることができる.まず第1に, 接続助詞「ので」と「から」が副詞との共起頻度において文中・文末で顕著な違いを示した.「ので」は文末ではほとんどみられず (5回あるいは4.59%), 「から」は頻繁にみられた (220回あるいは31.56%).第2に, 副詞「何しろ」と接続助詞「から」がもっとも典型的な文末表現であることが分かった (この種の組み合わせの合計324回のうち140回あるいは43.21%).第3に, 接続助詞「から」と副詞の「せっかく」の共起は, かなりあるものの, 文末では非常に少ないことも分かった (この種の組み合わせの合計67回のうち6回あるいは8.96%).第4に, 接続助詞「から」と副詞「何せ」「現に」「どうせ」「実際」「本当に」はいずれも, 文中・文末にほぼ同じようなパターンで共起していることも示された.第5に, 接続助詞「のに」は副詞の文中・文末の共起パターン (文中が78。82%, 文末が21.18%) が, 全体の共起頻度 (文中が72.73%, 文末が27.27%) と類似していた.以上のように, AnswerTree3.0Jによる決定木の手法は, 複数の変数からなる共起頻度データを構造的に分析することができ, 今後のコーパス研究において有効な手段の一つとなるであろう.

抄録全体を表示

PDF形式でダウンロード (2279K)

J-STAGEへの登録はこちら（無料）