自然言語処理

知識社会と情報技術

橋田浩一

2006 年 13 巻 3 号 p. 1-2
発行日: 2006/07/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.13.3_1

ジャーナルフリー

PDF形式でダウンロード (220K)
用例ベース翻訳の確率的モデル化

荒牧英治, 黒橋禎夫, 柏岡秀紀, 加藤直人

2006 年 13 巻 3 号 p. 3-19
発行日: 2006/07/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.13.3_3

ジャーナルフリー

抄録を表示する抄録を非表示にする

用例ベース翻訳は, これまで, 経験則にもとづく指標/基準により用例を選択してきた.しかし, 経験則に頼った場合, その修正を行うのが困難であり, また, アルゴリズムが不透明になる恐れがある.そこで, 本研究では用例ベース翻訳を定式化するための確率モデルを提案する.提案するモデルは, 翻訳確率の最も高い用例の組み合わせを探索することで, 翻訳文を生成する.さらに, 本モデルは用例と入力文のコンテキストの類似度を自然に翻訳確率に取り込む拡張も可能である.実験の結果, 本モデルを用いたシステムは, 従来の経験則によるシステムの精度を僅かに上回り, 用例ベース翻訳の透明性の高いモデル化を実現することに成功した.

抄録全体を表示

PDF形式でダウンロード (1522K)
サポートベクタマシンを使った文書分類における仮想事例の利用

颯々野学

2006 年 13 巻 3 号 p. 21-35
発行日: 2006/07/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.13.3_21

ジャーナルフリー

抄録を表示する抄録を非表示にする

本論文では, サポートベクタマシン (SVMs) を使った文書分類において仮想事例 (virtual examples) がどのように性能を改善するかを調べる.ある文書から少量の単語を追加したり削除したりしても, その文書が属するカテゴリは変化しないとの仮定を置いて, 文書分類のために仮想事例を作る方法を提案する.提案手法をReuters-21758テストセットコレクションで評価した.実験により, 仮想事例はサポートベクタマシンを使った文書分類の性能向上に役立つことが確認できた.特に, 学習事例が少量の場合にその効果は顕著であった.

抄録全体を表示

PDF形式でダウンロード (1313K)
選好依存文法とその圧縮共有データ構造「依存森」について

平川秀樹

2006 年 13 巻 3 号 p. 37-90
発行日: 2006/07/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.13.3_37

ジャーナルフリー

抄録を表示する抄録を非表示にする

選好依存文法 (PDG: Preference Dependency Grammar) は, 自然言語の形態素, 構文, 意味解析を統合的に行う枠組みであり, 各レベルの種々の曖昧性を統合的に効率良く保持し, 各レベルの知識により優先度を設定し, 全体解釈として最適な解を計算する.本稿では, PDGの基本モデルである多レベル圧縮共有データ結合モデルとPDGの概要について述べるとともに, 選好依存文法で用いられるヘッド付き統語森, 依存森といった言語解釈を統合保持するデータ構造とその構築手法について説明する.また, 文の句構造を圧縮共有する統語森と依存構造を圧縮共有する依存森との対応関係において完全性と健全性が成立することを示す.

抄録全体を表示

PDF形式でダウンロード (9443K)
談話構造解析に基づくスライドの自動生成

柴田知秀, 黒橋禎夫

2006 年 13 巻 3 号 p. 91-111
発行日: 2006/07/10
公開日: 2011/06/07

DOIhttps://doi.org/10.5715/jnlp.13.3_91

ジャーナルフリー

抄録を表示する抄録を非表示にする

本稿では, テキストから要約スライドを自動生成する手法を提案する.本稿で生成するスライドは, 入力テキストから抽出したテキストの箇条書きからなる.それらに適切なインデントを与えるには, 対比関係や詳細化関係などといった文または節間の関係を解析する必要がある.本手法では, まず, 接続詞などの手がかり表現, 語連鎖の検出, 二文間の類似度の三つの観点を用いてテキストの談話構造を解析する.そして, テキストから主題部・非主題部を抽出・整形し, 抽出したテキストのインデントを談話構造に基づいて決定することにより, スライドを生成する.実験を行なったところ, 入力テキストよりもかなり見やすいスライドを自動生成できることが確認された.

抄録全体を表示

PDF形式でダウンロード (6914K)
動詞項構造辞書への大規模用例付与

平野徹, 飯田龍, 藤田篤, 乾健太郎, 松本裕治

2006 年 13 巻 3 号 p. 113-132
発行日: 2006/07/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.13.3_113

ジャーナルフリー

抄録を表示する抄録を非表示にする

本論文では, 述語項構造解析の精度向上のために必要となる大規模な項構造タグ付き事例を効率的に作成する方法について議論する.項構造タグ付き事例の効率的な作成方法にはさまざまな方法が考えられるが, 本論文では大規模平文コーパスから抽出した表層格パターンの用例集合をクラスタリングし, 得られたクラスタに項構造タグを付与することでタグ付与コストを削減する手法を提案する.提案手法では, (i) 表層格パターン同士の類似性と (ii) 動詞間の類似性という2種類の類似性を利用してクラスタリングを行う.評価実験では, 実際に提案手法を用いて8つの動詞の項構造タグ付き事例を作成し, それを用いた項構造解析の実験を行うことによって, 提案手法のクラスタリングの性能や, 人手でタグ付き事例を作成するコストと項構造解析精度の関係を調査した.

抄録全体を表示

PDF形式でダウンロード (5131K)
クラス指向事例収集手法による言い換えコーパスの構築

藤田篤, 乾健太郎

2006 年 13 巻 3 号 p. 133-150
発行日: 2006/07/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.13.3_133

ジャーナルフリー

抄録を表示する抄録を非表示にする

語彙・構文的言い換えの中には, 形態・構文的パターンに基づいて一括りにできるものの, 表現を構成する語の統語・意味的な特性に依存して言い換えの可否や言い換え方が決まる現象が少なくない.本論文では, そのような言い換えを語彙構成的言い換えと呼ぶ.たとえば, 複合語を構成語に分解するような言い換え, 機能動詞構文の言い換え, 態や格の交替, 種々の動詞交替, 語彙的派生などは語彙構成的言い換えの範疇に含まれる.我々は現在, これら語彙構成的言い換えに関わる語の統語・意味的な特性を明らかにするため, および言い換え生成技術の定量的評価のために, 個々の言い換えクラスごとに言い換え事例集 (言い換えコーパス) を構築している.本論文では, 言い換え前後の表現の形態・構文的パターンと既存の言い換え生成システムを用いて言い換え事例を半自動的に収集する手法について述べる.また, 日本語の機能動詞構文の言い換え, 動詞の自他交替を対象とした予備試行の結果を報告する

抄録全体を表示

PDF形式でダウンロード (5172K)
関連用語収集問題とその解法

佐々木靖弘, 佐藤理史, 宇津呂武仁

2006 年 13 巻 3 号 p. 151-175
発行日: 2006/07/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.13.3_151

ジャーナルフリー

抄録を表示する抄録を非表示にする

本論文で提案する関連用語収集問題は, 与えられた専門用語に対し, それと強く関連する用語集合を求める問題である.この問題を解くためには, ある用語が専門用語であり, かつ, 入力用語と強く関連するかどうかを判定する方法が必要となる.本研究では, ウェブのサーチエンジンのヒット数から計算したJaccard係数もしくはX²統計量を用いて, この判定を行なう.作成した関連用語収集システムは, 候補語収集モジュールと関連用語選択モジュールの2つのモジュールから構成される.候補語収集モジュールは, サーチエンジンを利用して, 入力用語が出現するウェブページを収集し, それらのページから関連用語の候補語を収集する.関連用語選択モジュールは, Jaccard係数あるいはX²統計量の値に基づき, 候補語の中から入力用語に強く関連する用語を選択する.実験により, 作成したシステムが入力用語に強く関連する十数語の専門用語を収集できることが確かめられた.

抄録全体を表示

PDF形式でダウンロード (2556K)
日本語を援用した日本手話表記法の試み

松本忠博, 原田大樹, 原大介, 池田尚志

2006 年 13 巻 3 号 p. 177-200
発行日: 2006/07/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.13.3_177

ジャーナルフリー

抄録を表示する抄録を非表示にする

日本手話をテキストとして表現するための表記法を提案する.本表記法の検討に至った直接の動機は, 日本語一日本手話機械翻訳を, 音声言語間の機械翻訳と同様, 日本語テキストから手話テキストへの翻訳 (言語的な変換) と, 翻訳結果の動作への変換 (音声言語におけるテキスト音声合成と同様に手話動画の合成) とに分割し, 翻訳の問題から動作合成の問題を切り離すことにある.この翻訳過程のモジュール化により, 問題が過度に複雑化するのを防ぐことをねらいとする.同時に, 手話を書き取り, 保存・伝達する手段としての利用も念頭に置いている.本表記法で記述される手話文は, 手話単語, および, 複合語等の単語の合成, 句読点, 非手指要素による文法標識で構成される.手話単語は, 単語名とそれに付加する語形変化パラメータ (方向や位置, その他の手話動作によって付加される語彙的, 文法的情報を表す) で表す.我々の表記法は, 基本的に手話の動作そのものを詳細に記述するのではなく, 動作によって表される意味内容を記述することをめざした.ただし, 機械翻訳を念頭に置いているため, 動作への変換のための便宜にも若干の考慮を払った.本表記法の記述力を検証するため, 手話を第一言語とする手話話者による手話映像720文を解析し, この表記法での記述を試みた.全体で671文を記述することができた.十分表記できないと判断した49文 (51表現) を分析し, 問題点について考察した.

抄録全体を表示

PDF形式でダウンロード (7350K)
テキストを対象とした評価情報の分析に関する研究動向

乾孝司, 奥村学

2006 年 13 巻 3 号 p. 201-241
発行日: 2006/07/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.13.3_201

ジャーナルフリー

抄録を表示する抄録を非表示にする

インターネットが普及し, 一般の個人が手軽に情報発信できる環境が整ってきている. この個人の発信する情報には, ある対象に関するその人の評価等, 個人の意見が多く記述される.これらの評価情報を抽出し, 整理し, 提示することは, 対象の提供者である企業や, 対象を利用する立場の一般の人々双方にとって利点となる.このため, 自然言語処理の分野では, 近年急速に評価情報を扱う研究が活発化している.本論文では, このような現状の中, テキストから評価情報を発見, 抽出および整理, 集約する技術について, その基盤となる研究から最近の研究までを概説する.

抄録全体を表示

PDF形式でダウンロード (4525K)
日本語発話文における敬語の誤用を指摘するシステムの開発

白土保, 丸元聡子, 村田真樹, 井佐原均

2006 年 13 巻 3 号 p. 243-260
発行日: 2006/07/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.13.3_243

ジャーナルフリー

抄録を表示する抄録を非表示にする

現代の日本社会において, 日本語の敬語に関する様々な誤用が指摘されてきている. 日本社会における敬語の誤用は, 言語によるコミュニケーションを通じた社会的人間関係の構築を妨げる場合がある.敬語の誤用を避けるには, 敬語の規範に関する正しい知識の習得が不可欠である.このような知識習得を効率的に行うため, 敬語学習を支援する計算機システムの実現が期待される.このような背景の下, 我々は日本語発話文に含まれる語形上の誤用, 及び運用上の誤用を指摘するシステムを開発した.本システムは, 日本語発話文, 及び発話内容に関係する人物間の上下関係を表すラベルを入力とし, 入力された日本語発話文における誤用の有無, 及び誤用が含まれる場合にはその箇所と種類を出力する.発話に関わる人数は最大4名まで取り扱うことができる.正例, 及び負例を用いた実験によってシステムの妥当性を検証したところ, 一部のケースを除き, 本システムが妥当な出力を行うことが確認された.本システムは, 特に敬語の初学者に対する学習支援システムとして有用と考えられるが, その他の人々にとっても, 文書作成における敬語の語形のケアレスミスをチェックする等の用途として幅広く活用できると考えられる.

抄録全体を表示

PDF形式でダウンロード (1704K)

J-STAGEへの登録はこちら（無料）