自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
6 巻, 6 号
選択された号の論文の7件中1~7を表示しています
  • 奥村 学, 難波 英嗣
    1999 年 6 巻 6 号 p. 1-26
    発行日: 1999/07/10
    公開日: 2011/03/01
    ジャーナル フリー
    本稿では, これまでの (主に領域に依存しない) テキスト自動要約手法を概観する. 持に重要箇所の抽出を中心に解説する. また, これまでの手法の問題点を上げるとともに, 最近自動要約に関する研究で注目を集めつつある, いくつかのトピックについてもふれる.
  • 奥村 明俊, 池田 崇博, 村木 一至
    1999 年 6 巻 6 号 p. 27-44
    発行日: 1999/07/10
    公開日: 2011/03/01
    ジャーナル フリー
    オフィス業務においては, 大量の関連情報から, 特定のイベントについての経過や状況を把握するために, 要約や抄録の生成が求めらている. 本論文では, 複数の文書から抄録や要約をロバストに生成する手法として, あるイベントに関する時間的経緯を抄録として生成するエピソード抄録と, 大量の情報を大局的に把握するための要約文を生成する鳥瞰要約を提案する. エピソード抄録では, あるイベントを表す5W1H (だれが, なにを, いつ, どこで, どうした) が含まれる文書を検索し, そのイベントに関する時間的経緯を抄録として生成する. 鳥瞰要約は, 文章中の5W1H要素を, シソーラスを用いてそれらの上位概念で置き換えることで, 要約文を生成する. 新聞記事10,000件とセールスレポート2, 500件を対象として適用し, その効果を確認した.
  • 大竹 清敬, 船坂 貴浩, 増山 繁, 山本 和英
    1999 年 6 巻 6 号 p. 45-64
    発行日: 1999/07/10
    公開日: 2011/03/01
    ジャーナル フリー
    複数の関連記事に対する要約手法について述べる. 記事の第一段落を用いて, その重複部・冗長部を削除することにより複数の関連記事をどの程度要約できるかを明確にすることを目的とする. さらに, 重複部・冗長部を特定, 削除する処理をヒューリスティックスにより実現する手法を提案する. まず, 新聞記事における推量文の一部は重要度が低いと考えられ, これを文末表現ならびに手掛り語で特定し, 削除する. 次に, 詳細な住所の表現は記事の概要を把握するためには不必要であり, これも削除する. さらに, 導入部と呼ぶ部分を定義し, 導入部内の名詞と動詞が他記事の文に含まれるならば導入部は重複しているとし, 削除する. また, 頻繁に出現する人名・地名に関する説明語句, 括弧を用いた表現について, 他記事との重複を調べる. 重複している部分は, 1つを残し他は削除する. 提案手法を計算機に実装し, 実験を行った. その結果, 27記事群に対して各記事の第一段落を平均要約率82.1%で要約することができた. さらに, 実験結果のうち6記事群を用いて評価者11人に対してアンケートを行い評価した. アンケートの内容は, 要約文章において冗長に感じる箇所, ならびに削除部分を含めた元記事において重要と考えられるが削除されている箇所を指摘する, である. アンケート調査の結果, 本手法による要約がおおむね自然であることを確認した. また, 本手法によって削除された部分がおおむね妥当であることが明らかになった.
  • 三上 真, 増山 繁, 中川 聖一
    1999 年 6 巻 6 号 p. 65-81
    発行日: 1999/07/10
    公開日: 2011/03/01
    ジャーナル フリー
    ニュース原稿を1文ごとにそれぞれ要約する手法について報告する. 1文が長く, 1記事中の文数の少ないニュース原稿に対して文を抽出単位とする要約手法を用いることは, 大きく情報が欠落する可能性があり, 適切でない. そこで, 本要約手法では修飾部および比較的冗長と考えられる部分を削除することにより, 1文ごとの要約を行う. また, 1文を部分的に削除する際に構文構造が破壊されることを防ぐため, ニュース文要約に特化した簡易構文解析手法を利用している. 字幕文は, 画面上を一方的に流されるという性質から, 適切な長さに要約されている必要があり, 読みやすく, 原稿の情報が正確に伝わり, 冗長さが解消されている必要がある. このため, 被験者32名に対し, 本手法による要約文についてのアンケートを行うことにより, 自然さ, 忠実さ, 非冗長さの3つの視点から評価を行った. その結果, 理想的な要約を100%とした場合で, 自然さ81.5%, 忠実さ74.3%, 非冗長さ83.3%という評価値を得た.
  • 仲尾 由雄
    1999 年 6 巻 6 号 p. 83-112
    発行日: 1999/07/10
    公開日: 2011/03/01
    ジャーナル フリー
    語彙的結束性に基づき、文章中の話題の階層的な構成を自動認定する手法を提案する。語の繰り返しだけを手がかりに、文章全体の数分の1程度の大きな話題のまとまりから、段落程度の小さな話題のまとまりまで、話題の大きさ別に認定し、次に、大きな話題に関する境界と小さな話題に関する境界を対応づけることで、話題の階層構成を求める手法である。この手法は、複数の話題に関する文章が混在している集合的な文書の要約作成を目的に考案したものである。白書のような数十頁の報告書の骨子を把握したい利用者にとっては、1/4程度にまとめた通常の要約では長過ぎて役に立たないことがある。また、新聞の連載記事を要約する場合、関連する記事をまとめて要約した方がよい場合なども考えられる。よって、利用目的に応じて適切な粒度の話題を抽出する技術が重要となる。提案手法を使えば、指定した程度の大きさの話題のまとまりを認定できるので、要約の単位として適した大きさの話題のまとまりを抽出し、それぞれを要約することで、粒の揃った話題を含む要約が作成できる。本文では、提案手法の詳細を説明するとともに、長めの報告書と、新聞の連載記事を集めた文書などを対象とした話題構成認定実験により、提案手法の有効性と認定精度を示す。
  • 比留間 正樹, 山下 卓規, 奈良 雅雄, 田村 直良
    1999 年 6 巻 6 号 p. 113-129
    発行日: 1999/07/10
    公開日: 2011/03/01
    ジャーナル フリー
    本論文では, 重回帰分析にもとついた文章構造解析を利用した自動抄録手法とその評価, および文章要約への展開について述べる. 文章構造の解析は, 文章中の様々な特徴をパラメタとした判定式や局所的な言語知識により, 文章セグメントの分割統合を進めて構造木を作るものである. 得られた文章構造上の各種特徴をもとに, さらに文章抄録の観点から選択されたパラメタを加えて, 文抽出のための判定式を作る. 本研究では被験者5人にのべ350編の新聞社説の抄録調査を実施し, これを基準に, 重回帰分析によりパラメタの重みを決定し判定式を得, また, 本方式を評価する. また, 自動生成された抄録文に対して, 照応情報の欠落による文章の首尾一貫性の低下を避けるための補完や, 論旨を損なわない冗長な表現の削除を行なうことで要約文章を生成する手法を紹介する.
  • 福島 孝博, 江原 暉将, 白井 克彦
    1999 年 6 巻 6 号 p. 131-147
    発行日: 1999/07/10
    公開日: 2011/03/01
    ジャーナル フリー
    TVニュース原稿は, 新聞記事に比べて1記事中の文数が少なく, 1文当たりの文字数も多い. このため, 自動要約としての重要文抽出を行うと, 文単位で選択が行われる為, 情報の欠落が大きい. 本論文では, 記事中に現れる長文を分割出来る条件を設定し, 条件に合う場合は, 短い文に分割するという処理 (短文分割処理) を行った結果が自動要約の基本的技術にどれだけ影響・効果があるのかを調べた. 短文分割は, 基本的に, 動詞, 形容動詞と述語名詞の連用文節を分割の対象とした. また, 分割の自動要約に対する影響については, 評価の尺度として, 各文の重要度による順位付けと文字数圧縮 (不要部分削除) を用いた. 文順位付けの評価では, テキスト中の各文を人手及びシステムによって, その重要度に応じて順位を付けたものを対象とした. 人手により重要と判断された文が, 短文分割により分割された場合に, その分割された文は, どのような順位となると判断されるのかを調べた. その結果, 短文分割により分割された重要文は, 分割後の順位差において「3」以上離れる場合のほうが, 順位差が生じない場合, つまり順位差が「1」の場合より多くあり, 短文分割の効果が見られた. 次に, 記事中の重要文だけではなく全部の文を対象として, 人手とシステムによる順位付けについて短文分割前後での変化をスペアマンの順位相関関係係数を用いて比較した. その結果, 短文分割をすることにより, スペアマンの係数が0.0318~0.065増加し, 文の順位が, 人とシステムにおいてより近いものになることが判明した. 最後に, 文字数圧縮での評価では, 不要部分を特定し, 文字列を削除または言い換えを行う文字数圧縮処理において, 短文分割を行う前後での変化を調査した. 短文分割により削除される文字数は増え, 文字数圧縮後の文字数を元記事の文字数で割る圧縮率において, 2.71%~2.78%減少することが判明し, 短文分割が文字数圧縮に良い効果があることが分かった.
feedback
Top