自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
12 巻, 6 号
選択された号の論文の7件中1~7を表示しています
  • 加藤 恒昭
    2005 年 12 巻 6 号 p. 1
    発行日: 2005/11/10
    公開日: 2011/03/01
    ジャーナル フリー
  • 小林 聡, 山口 優, 中川 聖一
    2005 年 12 巻 6 号 p. 3-24
    発行日: 2005/11/10
    公開日: 2011/03/01
    ジャーナル フリー
    音声情報は記録が容易であるが, 記録後の参照は必ずしも容易ではない.本論文では, 音声の自動抽出要約を目指し, 表層的言語情報による重要文抽出結果と人間による結果との比較を行ない, 音声の抽出要約に有用と思われる表層情報を得た.また, 韻律情報としてFOとパワーに着目し, 人間による結果との比較を行った.最後に表層的言語情報と韻律情報を組み合わせた自動抽出要約システムを作成し, そのシステムによって得られる抽出要約と人間による抽出要約との比較, 聴取実験を行った.結果としてF値=0.599, κ値=0.420と良好な結果を得た.
  • 渡辺 靖彦, 横溝 一哉, 西村 涼, 岡田 至弘
    2005 年 12 巻 6 号 p. 25-44
    発行日: 2005/11/10
    公開日: 2011/03/01
    ジャーナル フリー
    本研究では最初に, 方法や対処法を問う質問 (how型の質問) に質問応答システムが答えるための知識を, メーリングリストに投稿されたメールから獲得する方法について述べる.方法や対処法を問う質問に答えるための知識 (「こんな場合にはこうする」など) は, メーリングリストに投稿されたメールから質問や説明の中心になる文 (重要文) を取り出すことによって獲得する.次に, メーリングリストに投稿されたメールから獲得した知識を用いる質問応答システムについて報告する.作成したシステムは自然な文で表現されたユーザの質問を受けつけ, その構文的な構造と単語の重要度を手がかりに質問文とメールから取り出した重要文とを照合してユーザの質問に答える.作成したシステムの回答と全文検索システムの検索結果を比較し, メーリングリストに投稿されたメールから方法や対処法を問う質問に答えるための知識を獲得できることを示す.
  • 市丸 夏樹, 日高 達
    2005 年 12 巻 6 号 p. 45-61
    発行日: 2005/11/10
    公開日: 2011/03/01
    ジャーナル フリー
    重要文抽出法に基づく要約手法に対する研究に一応の成熟が見られる中で, informativeな要約の実現へ向けて要約文の可読性の問題が取り上げられてきている.そこで本研究では, 話題の連想による文間, 段落問の繋がりに着目し, 要約文中の話題の流れの合計を最大にすることによって, 読みやすい要約文を得ることを試みる.要約システムはまず, 文章中で話題の流れが途切れる個所で段落分けし, 階層的な段落構造を構築する.次に, 話題の流れの解析によって導入部, 結論部を検出し保存する.そして, 周囲の話題の流れへの寄与率を評価値として閾値未満の不要な部分を選択し, 段落単位で削除していくことによって要約文を作成する.またその際, 自動的に閾値を補正し再試行することによって, 要約率の誤差をできるだけ小さく抑える.以上により, 文と文, 段落と段落が話題の連想による結束性で強く結び付いた, 読みやすい要約文を得ることができる.新聞の社説記事を用いた評価実験により, 提案手法は, まだ人手による要約と比べるとやや物足りないが, 比較的読みやすい要約文を生成することがわかった.また, 要約率30%の要約文中に原文中の結論が保存される割合は77.5%であった.
  • Marcin Skowron, Kenji Araki
    2005 年 12 巻 6 号 p. 63-83
    発行日: 2005/11/10
    公開日: 2011/03/01
    ジャーナル フリー
    Question classification is of crucial importance for question answering.In question classification, the accuracy of ML algorithms was found to significantly outperform other approaches.The two key issues in classification with a ML-based approach are classifier design and feature selection.Support Vector Machines is known to work well for sparse, high dimensional problems.However, the frequently used Bag-of-Words approach does not take full advantage of information contained in a question.To exploit this information we introduce three new feature types: Subordinate Word Category, Question Focus and Syntactic-Semantic Structure.As the results demonstrate, the inclusion of the new features provides higher accuracy of question classification compared to the standard Bag-of-Words approach and other ML based methods such as SVM with the Tree Kernel, SVM with Error Correcting Codes and SNoW.A classification accuracy of 85.6 % obtained using the three introduced feature types is, as of yet the highest reported in the literature, bringing error reduction of 27% compared to the Bag-of-Words approach.
  • 山本 和英, 池田 諭史, 大橋 一輝
    2005 年 12 巻 6 号 p. 85-111
    発行日: 2005/11/10
    公開日: 2011/03/01
    ジャーナル フリー
    新幹線要約, すなわち新幹線車内や街頭での電光掲示板で流れるニュースは簡潔に表現されており, このために独特の表現をしている.本論文ではこの特徴的な表現のうち体言止めや助詞止めといった文末表現に着目し, 一般的な新聞記事の表現をこのような高密度表現に加工する手法を提案する.まず, 実際に2万記事に及ぶ新幹線要約の表現の特徴を調査し, 文末におけるサ変名詞での体言止めが一般の新聞記事の8倍, 格助詞での助詞止めが一般の20倍あることを確認し, 新幹線要約における表現の特異性を確認した.次に, このような文末表現を実現するための提案手法を実装し, 新聞記事を入力として要約した.この結果, 文末表現に限定した要約率は12%であり, 1文当たり平均して2.5文字削除することができた.この結果を人間が行なった文末整形の結果と比較したところ, 要約率はほぼ同様の結果が得られた.さらに, 出力表現の評価を行なった結果, 正解率は95%となった.
  • 廣嶋 伸章, 長谷川 隆明, 奥 雅博
    2005 年 12 巻 6 号 p. 113-128
    発行日: 2005/11/10
    公開日: 2011/03/01
    ジャーナル フリー
    本論文ではwebページからその内容を簡潔に表すヘッドラインを生成する統計的手法を提案する.ヘッドラインは, 内容網羅性・可読性・高圧縮性の3条件を満たす必要がある.提案手法では, 内容網羅性を高めるために, コーパス中の複数の単語に関する素性からSVMを用いて重要語を選択する重要語選択モデルを構築する.さらに, 可読性に優れた文を生成するために, コーパス中の単語の連鎖確率だけでなく, もとの文のスタイルを考慮した文生成モデルを構築する.高圧縮率のために, これらの2つのモデルを用いて, 可読性と内容網羅性を考慮しながら単語をつなぎ合わせてヘッドラインを生成する.実験の結果, 提案した重要語選択モデルを用いることにより, 従来手法よりも内容網羅性の高いヘッドラインを生成できることを示し, 提案した文生成モデルを用いることにより, 従来手法よりも可読性の高いヘッドラインを生成できることを示した.
feedback
Top