自然言語処理

土俵と取り組み

井佐原均

2002 年 9 巻 3 号 p. 1-2
発行日: 2002/07/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.9.3_1

ジャーナルフリー

PDF形式でダウンロード (252K)
ベイズ統計の手法を利用した決定リストのルール信頼度推定法

鶴岡慶雅, 近山隆

2002 年 9 巻 3 号 p. 3-19
発行日: 2002/07/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.9.3_3

ジャーナルフリー

抄録を表示する抄録を非表示にする

統計的クラス分類器としての決定リストは, 近年自然言語処理における様々な分野でその有効性を示している.決定リストを構成する上で最も重要な問題の一つは, ルールの信頼度の算出法である. 決定リストを用いた多くの研究では, 最尤推定法と簡単なスムージングにより信頼度を算出しているが, 理論的な根拠に欠け推定精度も高くないという問題がある. そこで本論文では, ベイズ学習法を利用してルールの信頼度を算出する手法を示す. さらに, 証拠の種類ごとに異なる事前分布を利用することで, より正確な信頼度の推定が可能になり, 決定リストの性能が向上することを示す. 本手法の有効性を確かめるために, 語義曖昧性解消の問題に決定リストを適用して実験を行なった. 英語に関してはSenseval-1のデータを用い, 日本語に関しては疑似単語を用いた. その結果, ベイズ学習による信頼度推定手法が, ルールの確率値の推定精度を高め, 決定リストの分類性能を向上させることを確認した.

抄録全体を表示

PDF形式でダウンロード (1576K)
ドメイン固有の文字列情報の組み込みによる形態素解析処理の精度の向上

延澤志保, 佐藤健吾, 斎藤博昭

2002 年 9 巻 3 号 p. 21-40
発行日: 2002/07/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.9.3_21

ジャーナルフリー

抄録を表示する抄録を非表示にする

辞書ベースの自然言語処理システムでは辞書未登録語の問題が避けられない. 本稿では訓練コーパスから得た文字の共起情報を利用する手法で辞書未登録語の抽出を実現し, 辞書ベースのシステムの精度を向上させた. 本稿では形態素解析ツールをアプリケーションとして採用し, 処理時に統計情報を動的に利用することによって形態素の切り分けの精度を上げる手法と, 統計情報を利用して事前に辞書登録文字列を選別し必要なコスト情報を補って辞書登録を行なう手法との2つのアプローチを提案し, さらにこの2つの手法を組み合わせてそれぞれの欠点を補う手法を提案する. どちらも元のツールの改変を行なうものではなく, 統計情報の付加的な利用を半自動的に実現するもので, 元のツールでは利用できない辞書未登録語の抽出に対象を絞ることで精度の向上を図る. 実験の結果, 動的な統計情報の利用のシステムが未知語の認識に, 辞書登録システムが切り分け精度の向上に有効であることが示され, 2つのシステムを適切に組み合わせることによって訓練コーパスのデータで認識可能な辞書未登録語をほぼ完全に解決できた. さらに複合語の認識も高い精度で実現することができた.

抄録全体を表示

PDF形式でダウンロード (5321K)
連用修飾表現の省略可能性に関する知識の獲得

酒井浩之, 篠原直嗣, 増山繁, 山本和英

2002 年 9 巻 3 号 p. 41-62
発行日: 2002/07/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.9.3_41

ジャーナルフリー

抄録を表示する抄録を非表示にする

文内要約の一要素技術として, 連用修飾表現の省略可能性に関する知識を獲得する手法を提案する. 具体的には, 省略できる可能性のある連用修飾表現を含む節に対して, 同一の動詞をもち, かつ, 格助詞出現の差異が認められる節をコーパスから検索し, 検索された節対から省略可能な連用修飾表現を認定する. また, 連用修飾表現の内容および前後の文脈を考慮して, 重要な情報が多く含まれている連用修飾表現に対しては省略可能と認定できる可能性を低く, 逆に, 認定対象としている連用修飾表現に, それより以前の文に存在する情報が含まれている場合に対しては, 省略可能と認定できる可能性が高くなるような工夫を施した. 本手法によって省略可能と認定された連用修飾表現を評価したところ, 適合率78.0%, 再現率67.9%との結果を得た. また, 本手法を, 格フレーム辞書によって動詞に対する任意格として記述される格要素を, 省略可能な連用修飾表現として認定する手法と比較した. その結果, 適合率, 再現率ともに比較手法より良好な結果を得ることができ, 提案手法の有効性を確認した.

抄録全体を表示

PDF形式でダウンロード (2439K)
確率モデルを用いた日本語ゼロ代名詞の照応解析

関和広, 藤井敦, 石川徹也

2002 年 9 巻 3 号 p. 63-85
発行日: 2002/07/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.9.3_63

ジャーナルフリー

抄録を表示する抄録を非表示にする

日本語では, 読み手や聞き手が容易に推測できる語は頻繁に省略される. これらの省略を適切に補完することは, 自然言語解析, とりわけ文脈解析において重要である. 本論文は, 日本語における代表的な省略現象であるゼロ代名詞に焦点を当て, 確率モデルを用いた照応解析手法を提案する. 本手法では, 学習を効率的に行なうため, 確率モデルを統語モデルと意味モデルに分解する. 統語モデルは, ゼロ代名詞の照応関係が付与されたコーパスから学習する. 意味モデルは, 照応関係が付与されていない大規模なコーパスを用いて学習を行ない, データスパースネス問題に対処する. さらに本手法では, 照応解析処理の精度を高めるために確信度を定量化し, 正解としての確信が高いゼロ代名詞のみ選択的に結果を出力することも可能である. 新聞記事を対象にした照応解析実験を通して本手法の有効性を示す.

抄録全体を表示

PDF形式でダウンロード (2307K)
自動文節対応付けを用いた要約中の文再構成操作の調査

竹内和広, 松本裕治

2002 年 9 巻 3 号 p. 87-108
発行日: 2002/07/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.9.3_87

ジャーナルフリー

抄録を表示する抄録を非表示にする

本研究では, 要約文とその要約文を作成するために使用された表現を含む原文とを自動的に対応付ける手法を用いて, 人間が要約文を作成する上で, 要約元となった原文をどのように再構成するかを調査した. 対応付けに用いた手法は, かかり受け構造の解析結果を利用し, 要約文とその対応文との間の対応付けを文節単位で行う. また, 要約文1文に対して, 要約元文章中の複数文を対応付けすることを許して対応付けが可能である. 調査した対象は, 複数の作業者が新聞の社説を要約したデータである. このデータに対して, 対応付け手法を実際に適用した. 対応付けの結果, 要約元文章で用いられていなかったり, 元文章でかかり受け関係がなかった表現が要約文に用いられていた場合に, それらの表現を構成する文節は未対応となる. そこで, そのような要約文中で未対応になった文節がどのように生成されたかを, 計算機でも処理可能な操作を主眼に分類・整理して考察した. その結果, 要約原文のかかり受け構造は, 要約文においても保存されることが多く, 要約文に新しく出現する表現の多くは, 複数の原文から1つの要約文を作成する文結合操作と, 単文節を中心とした言い換え操作により生成されることがわかった.

抄録全体を表示

PDF形式でダウンロード (3468K)
複数の対話エージェントを導入した情報検索の対話モデル

酒井桂一

2002 年 9 巻 3 号 p. 109-128
発行日: 2002/07/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.9.3_109

ジャーナルフリー

抄録を表示する抄録を非表示にする

本稿では複数の対話エージェントを導入する効率的な情報検索の対話モデルを採用する. 情報検索という複雑な対話に対して, 万能の対話エージェントを用意することは, 現状では困難である. そこで, 以下の三つの局面で, 対話エージェントを切り替えることによって, ユーザは円滑な情報検索対話を進めることができる.
ドメイン: 情報検索を行なうに当たって, ドメインの存在を認識できる.
対話戦略: 同一のドメインにおいても, 検索を進める上で, 様々な対話戦略が用意されていることを認識できる.
文脈: 条件分岐など, それぞれの文脈に対して対話エージェントを割り当てることによって, 検索を容易にする.
上記のように多数の対話エージェントを導入した対話モデルを用いることにより, ユーザは対話の状況をよりたやすく理解できると考えられる. 評価実験により, 本提案による良好な結果が得られた.

抄録全体を表示

PDF形式でダウンロード (3184K)
要約の内的 (intrinsic) な評価法に関するいくつかの考察

第2回NTCIRワークショップ自動要約タスク (TSC) を基に

難波英嗣, 奥村学

2002 年 9 巻 3 号 p. 129-146
発行日: 2002/07/10
公開日: 2011/03/01

DOIhttps://doi.org/10.5715/jnlp.9.3_129

ジャーナルフリー

抄録を表示する抄録を非表示にする

システムの出力した要約そのものを評価する方法は, 一般に内的な評価と呼ばれている. これまでの典型的な内的な評価の方法は, 人手で作成した抜粋と要約システムの出力との一致度を, F-measure等の尺度を用いて測ることで行われてきた. しかし, F-measureは, テキスト中に類似の内容を含む文が複数存在する場合, どちらの文が正解として選択されるかにより, システムの評価が大きく変化する, という問題点がある. 本研究では, この問題点を解消するいくつかの評価方法をとりあげ, その有用性に関する議論を行う. F-measureの問題点を解消する評価方法の1つにutilityに基づく評価があるが, この方法では評価に用いるデータ作成にコストがかかるという問題がある. 本研究では, あるテキストに関する複数の要約率のデータを用いることで, 疑似的にutilityに基づく評価を実現する方法を提案する. 提案する評価方法を, 第2回NTCIRワークショップ自動要約タスク (TSC) のデータに適用し, 有用性に関する調査を行った結果, 提案方法は, F-measureの問題点をある程度改善できることが確認された. 次に, F-measureの問題点を解消する他の評価方法の一つであるcontent-basedな評価を取り上げる. content-basedな評価では, 指定された要約率の正解要約を一つだけ用意すれば評価可能であるため, utilityに基づく評価に比べ, 被験者への負荷が少ない. しかし, この評価方法で2つの要約を比較する場合, どの程度意味があるのかについては, これまで十分な議論がなされていない. そこで, pseudo-utilityに基づく評価と同様にTSCのデータを用い, content-basedな評価の結果を被験者による主観評価の結果と比較した結果, 2つの要約がcontent-basedな評価値で0.2以上の開きがあれば, 93%以上の割合で主観評価の結果と一致することが分かった.

抄録全体を表示

PDF形式でダウンロード (1947K)

J-STAGEへの登録はこちら（無料）