自然言語処理

One World, One Dream

馬青

2008 年 15 巻 1 号 p. 1-2
発行日: 2008/01/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.15.1

ジャーナルフリー

PDF形式でダウンロード (273K)
Using Semi-supervised Learning for Question Classification

Tri Thanh Nguyent, Le Minh Nguyent, Akira Shimazu

2008 年 15 巻 1 号 p. 3-21
発行日: 2008/01/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.15.3

ジャーナルフリー

抄録を表示する抄録を非表示にする

Question classification, an important phase in question answering systems, is the taskof identifying the type of a given question among a set of predefined types.This studyuses unlabeled questions in combination with labeled questions for semi-supervisedlearning, to improve the precision of question classification task.For semi-supervisedalgorithm, we selected Tri-training because it is a simple but efficient co-training stylealgorithm.However, Tri-training is not well suitable for question data, so we give twoproposals to modify Tri-training, to make it more suitable.In order to enable itsthree classifiers to have different initial hypotheses, Tri-training bootstrap-samplesthe originally labeled set to get different sets for training the three classifiers.Theprecisions of three classifiers are decreased because of the bootstrap-sampling.Withthe purpose to avoid this drawback by allowing each classifier to be initially trainedon the originally labeled set while still ensuring the diversity of three classifiers, ourfirst proposal is to use multiple algorithms for classifiers in Tri-training;the secondproposal is to use multiple algorithms for classifiers in combination with multipleviews, and our experiments show promising results.

抄録全体を表示

PDF形式でダウンロード (1945K)
日本語テキストから手話テキストへの機械翻訳の試み

松本忠博, 池田尚志

2008 年 15 巻 1 号 p. 23-51
発行日: 2008/01/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.15.23

ジャーナルフリー

抄録を表示する抄録を非表示にする

手話は言語でありろう者の母語である.手話と音声言語の間のコミュニケーションには手話通訳が必要となるが, 手話通訳士の数は圧倒的に不足している.両言語間のコミュニケーションを支援する技術が期待される.本論文は日本語と手話との間の機械翻訳を目指して, その一つのステップとして, 日本語テキストから手話テキストへの機械翻訳を試みたものである.機械翻訳をはじめとする自然言語処理技術はテキストを対象としているが, 手話には文字による表現がないため, それらを手話にそのまま適用することができない.我々は言語処理に適した日本手話の表記法を導入することで, 音声言語間の翻訳と同様に, 日本語テキストから手話テキストへの機械翻訳を試みた.日本語から種々の言語への機械翻訳を目的として開発中のパターン変換型機械翻訳エンジンjawをシステムのベースに用いている.目的言語である手話の内部表現構造を設定し, 日本語テキストを手話の表現構造へ変換する翻訳規則と, 表現構造から手話テキストを生成する線状化規則を与えることで実験的な翻訳システムを作成した.日本手話のビデオ教材等から例文を抽出し, その翻訳に必要な規則を与えることで, 日本語から手話に特徴的な表現を含んだ手話テキストへの翻訳が可能であることを確認するとともに, 現状の問題点を分析した.

抄録全体を表示

PDF形式でダウンロード (18924K)
日本語ウェブページに出現するムードの収集, および拡充したムード体系の提案

大森晃

2008 年 15 巻 1 号 p. 53-79
発行日: 2008/01/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.15.53

ジャーナルフリー

抄録を表示する抄録を非表示にする

日本語文のムードについて, いくつかの体系が提示されている.しかしながら, 既知のムード体系がどのような方法によって構成されたかは明確に示されてはいない.また, 多種多様な日本語ウェブページに含まれるような文を対象にして, ムード体系を構成しているとは思われない.したがって, 日本語ウェブページを対象にした言語情報処理において, 既知のムード体系は網羅性という点で不十分である可能性が高い.本論文では, NTCIRプロジェクトによって収集された11, 034, 409件の日本語ウェブページに含まれる文を分析して既知のムードとともに新しいムードを収集するための系統的方法について詳述する.その方法の基本的手順は, (1) 日本語文をChaSenによって単語に分割し, (2) 様々な種類のムードを表出すると予想される文末語に着目し, (3) 文末語に手作業でムードを割り当てる, というものである.そして, 収集した新しいムードを示し, 収集したムードとその他の既知ムードとの比較を行い, 収集できなかったムードは何か, 新しく収集したムードのうちすでに提示されているものは何か, を明らかにする.比較によって得た知見をもとに, より網羅性を高めるように, 拡充したムード体系の構成を提案する.

抄録全体を表示

PDF形式でダウンロード (2875K)
自然なコンピュータ会話のための違和感形容表現の検出

吉村枝里子, 土屋誠司, 渡部広一, 河岡司

2008 年 15 巻 1 号 p. 81-102
発行日: 2008/01/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.15.81

ジャーナルフリー

抄録を表示する抄録を非表示にする

コンピュータとの人間らしい会話のために, 代表的な応答事例を知識として与え, 文章の可変部を連想によって変化させることができれば, より柔軟で多種多様な会話ができると考えられる.しかし, 機械的な語の組み合わせに起因する一般的に見て不自然な語の組み合わせの応答を生成する恐れがある.本論文では, 機械的に作成した応答文の内, 名詞と形容語の関係に注目し, 違和感の有無の観点からその関係を整理することで, 形容語の使い方の知識構造をモデル化する.更に, その知識構造を用いて, 合成した会話応答文中の違和感のある組み合わせの語を検出する手法を提案する.本稿の手法を用いることで, 形容語の違和感のある使い方の判定に関し, 87%の高い精度を得, 有効な手法であることを示した.

抄録全体を表示

PDF形式でダウンロード (11381K)

J-STAGEへの登録はこちら（無料）