自然言語処理

内容に基づくコンテンツの処理

林良彦

2001 年 8 巻 4 号 p. 1-2
発行日: 2001/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.8.4_1

ジャーナルフリー

PDF形式でダウンロード (224K)
拡張言語行為論による了解の分析

あいづち「はい」による了解の程度と過程

土井晃一, 大森晃

2001 年 8 巻 4 号 p. 3-17
発行日: 2001/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.8.4_3

ジャーナルフリー

抄録を表示する抄録を非表示にする

了解という言語現象が言語行為の分析にとって重要であることが, Austinによって指摘された. しかし了解に関しては, これまで十分な分析が行なわれてこなかった. 本論文では, 了解の語用論的な分析を行った. 語用論的な分析をするためにAustinとSearleによる言語行為論の拡張を行い, 拡張言語行為論の枠組みを提案した. その枠組みには以下のような特徴がある.
・新たに二つの概念要素 (隠蔽された命題行為と意図) を既存の言語行為論に取り入れている.
・既存の言語行為論における発語媒介行為と発語媒介的効果を, それぞれ, 二種類の行為および四種類の効果に分割している.
その結果, 拡張言語行為論の枠組みは13の概念要素からなることになった. 提案した枠組みに基づいて, 了解の代表的表現のひとつである「はい」の意味の多様性を, 了解の過程・程度を軸にして語用論的に分析した. 分析の結果, 了解の程度には八つの段階, 了解の過程には七つの段階があることが明らかになった.

抄録全体を表示

PDF形式でダウンロード (3650K)
統計的手法による分野非依存のテキスト分割

内山将夫, 井佐原均

2001 年 8 巻 4 号 p. 19-36
発行日: 2001/10/10
公開日: 2011/06/07

DOIhttps://doi.org/10.5715/jnlp.8.4_19

ジャーナルフリー

抄録を表示する抄録を非表示にする

複数のトピックからなる文章を, それぞれのトピックに切り分けることをテキスト分割と呼ぶ. テキスト分割は, 情報検索や要約のための基本技術として有用である. 本稿では, 分割確率最大化という観点からテキスト分割を定式化した. その定式化の特色の一つは, テキスト内の単語しか, 確率推定に利用しないことである. そのため, 提案手法は, 任意の分野のテキストに対して適用できる. 提案手法の有効性は二つの実験により確認された. まず, 実験1では, 公開データに対して提案手法を適用することにより, 提案手法の分割精度が従来手法の分割精度よりも優れていることが示された. 次に, 実験2では, 長い文書の元々の章や節の構造と提案手法による分割結果とを比較した結果, 厳密な一致のみを正解とする場合, 章には0.37, 節には0.34の割合で一致し, ±1行のずれを許容する場合, 章には0.49, 節には0.51の割合で一致した. これらのことは, 提案手法が, テキスト分割に対して有効であることを示している.

抄録全体を表示

PDF形式でダウンロード (1792K)
概念間距離の定式化と既存電子化辞書との比較

岡本潤, 石崎俊

2001 年 8 巻 4 号 p. 37-54
発行日: 2001/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.8.4_37

ジャーナルフリー

抄録を表示する抄録を非表示にする

コンピュータで言語処理を行なうとき, 構文解析や意味解析だけでなく人間が持つ一般的な知識や当該分野の背景的知識などの情報が必要になる. 本研究では, 人間の持つ知識を調べるため連想実験を行ない連想概念辞書として構造化した. 連想実験では, 小学生の学習基本語彙中の名詞を刺激語とし, 刺激語と「上位概念, 下位概念, 部分・材料, 属性, 類義語, 動作, 環境」の7つの課題から連想語を収集する. 従来の電子化辞書は木構造で表現され, 概念間の距離は階層の枝の数を辿る回数をもとに計算するなど構造に依存したものであったが, 連想概念辞書では連想実験から得られるパラメータをもとに, 線形計画法によって刺激語と連想語の距離を定量化した. また距離情報を用い, 「果物」「野菜」「家具」などの日常頻出語を中心として3～4階層をなす刺激語の連想語 (上位/下位概念) のつながりを調べた. この連想概念辞書とEDR電子化辞書, Word Netの比較を, 上位/下位階層をなす概念問の距離を求めることで行なった. 連想概念辞書とWord Netは, ある程度近い概念構造を持っており, 一方EDRは他の2つとは異なる特徴の構造を持っていることがわかった.

抄録全体を表示

PDF形式でダウンロード (2680K)
英日機械翻訳における自然な和文生成のための英語名詞句の書き換え

吉見毅彦

2001 年 8 巻 4 号 p. 55-70
発行日: 2001/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.8.4_55

ジャーナルフリー

抄録を表示する抄録を非表示にする

英日機械翻訳システムによる翻訳に対して感じる不自然さの原因の一つとして, 動詞的意味を含む英語の名詞句がそのまま日本語でも名詞句として訳されているということがある. この不自然さを解消するために本稿では, 動詞的意味を含む名詞句を文に近い形式に書き換える自動前編集方法を示す. 動詞的意味を含む名詞句のうち, 属格名詞とof前置詞句の両方を修飾句として持つ名詞句を主な対象として実験を行なった. 提案方法によって書き換えた名詞句を含む文を我々のシステムPower E/Jで処理し, 書き換えを行なわない場合の翻訳と比較したところ, 67.3%の文においてより自然な翻訳が得られた. 従来, この不自然さの問題に対しては, システム内部の変換過程で対処されることが多かった. 従来の方法に比べて, 前編集による方法の利点は, 特定のシステムへの依存性が低く, 実践上の適用範囲が広いことである. 実験を通じて, 市販されている幾つかのシステムにおいても, 書き換えによってより自然な翻訳が得られることを確認した.

抄録全体を表示

PDF形式でダウンロード (1783K)
日本語読み上げ文の係り受け解析における韻律的特徴量の有効性

廣瀬幸由, 尾関和彦, 高木一幸

2001 年 8 巻 4 号 p. 71-89
発行日: 2001/10/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.8.4_71

ジャーナルフリー

抄録を表示する抄録を非表示にする

韻律には発話が文字化されると失われてしまう情報が含まれているが, そのような情報は発話文の構文解析に有効である可能性がある. 我々のグループでは, 以前の研究で12種類の韻律的特徴量を取り上げ, それらと係り受け距離の関係を表現する統計モデルを構成した. そして, そのモデルを組み込んだ係り受け解析器を用い, 韻律情報が実際に読み上げ文の係り受け解析に有効であることを示した. 本研究では新たな特徴量を加えて24種類の韻律的特徴量を取り上げ, 有効な特徴量を広い範囲で探索した. また, 統計モデルを特徴量の現実の分布によりよく当てはまるように修正した. その結果, ATR503文データベースを用いたオープン実験において, 韻律的特徴量を用いることにより, 係り受け解析の文正解率が21.2%向上した. これは, 我々のグループの以前の実験における向上率より4.0ポイント高い. 特徴量の中でポーズ長はクローズド実験においてもオープン実験においても非常に有効であったが, これと併用したときの, ピッチやパワー, 話速等に関連する他の特徴量の有効性はオープン実験においてはあまり明らかでなかった.

抄録全体を表示

PDF形式でダウンロード (1887K)

J-STAGEへの登録はこちら（無料）