自然言語処理

最近思うこと

井佐原均

2007 年 14 巻 5 号 p. 1-2
発行日: 2007/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.14.5_1

ジャーナルフリー

PDF形式でダウンロード (223K)
A Study of the Position of Discourse Markers: Focusing on the Texts Whose Target Audience Was Intermediate Non-native Speakers of English

Xinyu Deng, Jun-ichi Nakamura

2007 年 14 巻 5 号 p. 3-40
発行日: 2007/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.14.5_3

ジャーナルフリー

抄録を表示する抄録を非表示にする

As an international language, English has become more and more important for nonnative speakers. Therefore, writers ought to consider the needs of non-native speakers, i.e. write English in a way that can be understood quite well by non-native audience. In this paper, we investigate the position of six discourse markers within the texts whose target audience was intermediate non-native speakers of English. The six discourse markers are: because and since, which represent “reason” relation; if and when, which represent “condition” relation; although and while, which represent “concession” / “contrast” relation. First, we created a corpus (200, 000 words) containing the texts (domain: natural and pure science) whose target audience was intermediate non-native speakers. We selected 1072 examples of the six discourse markers from the corpus, and annotated them. Second, a machine learning program C4.5 was applied to induce the classification models of the position of the discourse markers. And then we used Support Vector Machine (SVM) to verify the experiment results of C4.5. To our knowledge, this study is the first one on exploring the position of discourse markers within the texts whose target audience was intermediate non-native speakers. The experiment results can be applied to text generation and homepage creation for intermediate non-native speakers of English.

抄録全体を表示

PDF形式でダウンロード (3828K)
概念間の関連度計算のための大規模概念ベースの構築

奥村紀之, 土屋誠司, 渡部広一, 河岡司

2007 年 14 巻 5 号 p. 41-64
発行日: 2007/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.14.5_41

ジャーナルフリー

抄録を表示する抄録を非表示にする

人間は日常会話において, 様々な連想を行っている.例えば, 「車」という語から「タイヤ」, 「エンジン」, 「事故」, …, といった語を自然に思い浮かべ, 連想によって会話の内容を柔軟に拡大させている.コンピュータ上での連想機能の実現には, 概念ベースが重要な役割を果たす.概念ベースでは, 言葉の意味 (概念) を属性とその重みで定義している.概念ベースの構築方式として, 概念 (約4万語) とその属性を, 電子化国語辞書の語義説明文から抽出する方法が提案されている.しかしながら, 定義的な国語辞書から取得される概念や属性の数が少数であり, 連想の精度に問題がある.
本論文では, 電子化国語辞書の語義説明文から構築した概念ベースを核に, 電子化新聞等の一般的な記事文から共起情報を基に概念ベースを拡大し, 約12万語規模の概念ベースを構築する手法を提案している.概念ベースの拡張においては, まず, 国語辞書の各見出し語に対する語義説明文から基本的な概念に対し, 信頼性の高い属性を取得する.それらを基に, 新聞記事等から抽出した各概念に対する共起語を属性候補として追加する.その後, 属性関連度 (概念と属性の関連の強さ) により不適切な属性 (雑音属性) を除去し, 属性の質を向上させている.また, 各属性に付与する重み (属性重み) は, 概念を属性集合により構成される仮想文書と捉え, 文書処理におけるキーワードの重み付与方法 (tf・idf法) の考え方に準拠する方法により求めている.提案手法で構築した概念ベースと国語辞書のみで構築した概念ベースを関連度評価実験により比較評価し, 提案手法で構築した概念ベースが精度的に優れていることを示した.

抄録全体を表示

PDF形式でダウンロード (5112K)
日中機械翻訳における存在表現の翻訳処理について

王軼謳, 池田尚志

2007 年 14 巻 5 号 p. 65-105
発行日: 2007/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.14.5_65

ジャーナルフリー

抄録を表示する抄録を非表示にする

存在文はいかなる言語にも存在し, 人間のもっとも原始的な思考の言語表現の一つであって, それぞれの言語で特徴があり言語により異なりが現れてくる.存在表現の意味上と構文上の多様さのために, 更に中国語との対応関係の複雑さのために, 日中機械翻訳において, 曖昧さを引き起こしやすい.現在の日中市販翻訳ソフトでは, 存在表現に起因する誤訳 (訳語選択, 語順) が多く見られる.本論文では, 日中両言語の存在表現における異同について考察し, 日中機械翻訳のために, 日本語文の構文特徴, 対応名詞の属性, 中国語文の構文構造などを利用して存在動詞の翻訳規則をまとめ, 存在表現の翻訳方法について提案した.これらの翻訳規則を我々の研究室で開発している日中機械翻訳システムJaw/Chineseに組み込んで, 翻訳実験を行った.更に手作業による翻訳実験も加えて, この規則を検証し, 良好な評価を得た.

抄録全体を表示

PDF形式でダウンロード (7909K)
NMFによる重み付きハイパーグラフを用いたアンサンブル文書クラスタリング

新納浩幸, 佐々木稔

2007 年 14 巻 5 号 p. 107-122
発行日: 2007/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.14.5_107

ジャーナルフリー

抄録を表示する抄録を非表示にする

本論文ではNon-negative Matrix Factorization (NMF) を利用したアンサンブル文書クラスタリングを提案する.
NMFは次元縮約を利用したクラスタリング手法であり, 文書クラスタリングのようにデータが高次元かつスパースとなる場合に効果を発揮する.ただしNMFは初期値によって得られるクラスタリング結果が異なるという問題がある.そのために通常は初期値を様々に変えて, 複数個得られたクラスタリング結果から, NMFの分解の精度の最もよい結果を選択する.しかしNMFの分解の精度はクラスタリング結果の精度を直接表しているわけではないので, 最適な選択が行える保証はない.ここではNMFによるクラスタリングの精度を高めるために, 複数個得られたクラスタリング結果をアンサンブルすることを試みる.アンサンブルは, 複数個のクラスタリング結果からハイパーグラフを作成し, そのハイパーグラフで表現されたデータをクラスタリングすることで行える.従来, そのハイパーグラフは0か1のバイナリ値が用いられていたが, ここではNMFの結果を用いて, 適切な実数値の重みを与えることで改良する.実験ではk-means, NMF, 通常のハイパーグラフを用いたアンサンブル手法および重み付きハイパーグラフを用いたアンサンブル手法 (本手法) のクラスタリング結果を比較し, 本手法の有効性を示す.

抄録全体を表示

PDF形式でダウンロード (5130K)
日本語機能表現辞書の編纂

松吉俊, 佐藤理史, 宇津呂武仁

2007 年 14 巻 5 号 p. 123-146
発行日: 2007/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.14.5_123

ジャーナルフリー

抄録を表示する抄録を非表示にする

日本語には, 「にたいして」や「なければならない」に代表されるような, 複数の形態素からなっているが, 全体として1つの機能語のように働く複合辞が多く存在する.われわれは, 機能語と複合辞を合わせて機能表現と呼ぶ.本論文では, 自然言語処理のための日本語機能表現辞書について提案する.日本語の機能表現が持つ主な特徴の1つは, 個々の機能表現に対して, 多くの異形が存在することである.計算機が利用することを想定した辞書を編纂する場合, これらの異形を適切に扱う必要がある.われわれが提案する辞書は, 機能表現の異形を体系的に整理するために, 見出し体系として, 9つの階層からなる階層構造を用いる.現在, この辞書には, 341の見出し語と16, 771の出現形が収録されており, 既存の機能表現リストと比較した結果, 各々の見出し語に対して, ほぼすべての異形が網羅されていることが確かめられた.

抄録全体を表示

PDF形式でダウンロード (2477K)
An Efficient and User-friendly Sinhala Input Method Based on Phonetic Transcription

Sandeva Goonetilleke, Yoshihiko Hayashi, Yuichi Itoh, Fumio Kishino

2007 年 14 巻 5 号 p. 147-166
発行日: 2007/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.14.5_147

ジャーナルフリー

抄録を表示する抄録を非表示にする

We propose an application-independent Sinhala character input method called Sri Shell with a principled key assignment based on phonetic transcription of Sinhala characters. A good character input method should fulfill two criteria, efficiency and user-friendliness. We have introduced several quantification methods to quantify the efficiency and user-friendliness of Sinhala character input methods. Experimental results prove the efficiency and user-friendliness of our proposed method.

抄録全体を表示

PDF形式でダウンロード (1652K)
日本語機能表現の自動検出と統計的係り受け解析への応用

注連隆夫, 土屋雅稔, 松吉俊, 宇津呂武仁, 佐藤理史

2007 年 14 巻 5 号 p. 167-197
発行日: 2007/10/10
公開日: 2011/06/07

DOIhttps://doi.org/10.5715/jnlp.14.5_167

ジャーナルフリー

抄録を表示する抄録を非表示にする

日本語には, 「にあたって」や「をめぐって」のように, 2つ以上の語から構成され, 全体として1つの機能的な意味をもつ機能表現という表現が存在する.一方, この機能表現に対して, それと同一表記をとり, 内容的な意味をもつ表現が存在することがある.そして, この表現が存在することによって, 機能表現の検出は困難であり, 機能表現を正しく検出できる機能表現検出器が必要とされている.そこで, 本論文では, 日本語機能表現を機械学習を用いて検出する手法を提案する.提案手法では, Support Vector Machine (SVM) を用いたチャンカーYam Chaを利用して, 形態素解析結果を入力とする機能表現検出器を構築する.具体的には, 形態素解析によって得られる形態素の情報と, 機能表現を構成している形態素の数の情報, 機能表現中における形態素の位置情報, 機能表現の前後の文脈の情報を学習・解析に使用することにより, F値で約93%という高精度の検出器を実現した.さらに, 本論文では, 機能表現検出器の解析結果を入力として, 機能表現を考慮した係り受け解析器を提案する.提案手法では, Support Vector Machine (SVM) に基づく統計的係り受け解析手法を利用して, 機能表現を考慮した係り受け解析器を構築する.具体的には, 京都テキストコーパスに対して, 機能表現の情報を人手で付与し, 機能表現の情報を基に文節の区切りや係り先の情報を機能表現を考慮したものに変換した.そして, SVMに基づく統計的係り受け解析の学習・解析ツールCabo Chaを用いて, 変i換したデータを学習し, 機能表現を考慮した係り受け解析を実現した.評価実験では, 従来の係り受け解析手法よりもよい性能を示すことができた.

抄録全体を表示

PDF形式でダウンロード (8186K)
ゲーム理論に基づく参照結束性のモデル化と日本語・英語の大規模コーパスを用いた統計的検証

白松俊, 駒谷和範, 橋田浩一, 尾形哲也, 奥乃博

2007 年 14 巻 5 号 p. 199-239
発行日: 2007/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.14.5_199

ジャーナルフリー

抄録を表示する抄録を非表示にする

参照結束性 (referential coherence) は, 主題の連続性や代名詞化によってもたらされる, 文章の滑らかさを表す.では, なぜ参照結束性が高い表現/解釈が選択されるのだろうか.参照結束性の標準的理論であるセンタリング理論は, 従来, この行動選択のメカニズムをモデル化していなかった.本研究の目的は以下の2つである.(1) この行動選択原理をゲーム理論でモデル化した仮説 (Hasida1996;白松他2005) を, 複数言語のコーパスで検証すること.(2) ゲーム理論の期待効用という値が選択基準になり得るか確かめ, 様々な言語の談話処理で利用可能な表現/解釈の選択機構をモデル化すること.
そのために本稿では, 意味ゲームに基づくセンタリングモデル (MGCM;Meaning-Game-based Centering Model) を多言語化した.具体的には, 言語依存パラメタの定義を統計的にし, コーパスからのパラメタ獲得を可能にした.本改良により多言語への適用が可能になったので, 日本語と英語のコーパスを用いてモデルを検証した.その結果, 参照結束性の高い繋がりを持つ発話では, 期待効用が高い表現/解釈が選択されているという統計的な証拠を得た.これにより, MGCMの言語をまたぐ一般性, すなわち, 「参照結束性はゲーム理論の期待効用原理によって引き起こされている」という仮説の言語一般性が示された.

抄録全体を表示

PDF形式でダウンロード (5744K)

J-STAGEへの登録はこちら（無料）