自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
16 巻, 1 号
選択された号の論文の6件中1~6を表示しています
巻頭言
論文
  • 浜辺 良二, 内元 清貴, 河原 達也, 井佐原 均
    2009 年 16 巻 1 号 p. 1_3-1_23
    発行日: 2009年
    公開日: 2011/09/14
    ジャーナル フリー
    話し言葉の係り受け解析を行なう際の最大の問題は,文境界や引用節・挿入節などの境界が明示されていないことである.本論文では,話し言葉に対して,引用節・挿入節を自動認定するための手法,および自動認定した引用節・挿入節の情報を用いて係り受け解析を改善するための手法を提案する.形態素やポーズの情報などをもとに,SVM を用いたテキストチャンキングによって,引用節・挿入節の始端と終端を決定する.始端を決定する際には,自動推定した係り受けの情報をあわせて利用する.日本語話し言葉コーパス (CSJ) を用いた評価実験により,自動認定した引用節・挿入節の情報を利用することで係り受け解析精度が 77.7% から 78.7% に改善されることを確認し,本手法の有効性を示した.
  • 冨浦 洋一, 青木 さやか, 柴田 雅博, 行野 顕正
    2009 年 16 巻 1 号 p. 1_25-1_46
    発行日: 2009年
    公開日: 2011/09/14
    ジャーナル フリー
    本論文では,ベイズ識別と仮説検定に基づいて,英文書の作成者の母語話者/非母語話者の判別を高精度で行う手法を提案する.品詞 n-gram モデルを言語モデルとし,判別対象の文書の品詞列の生起確率を,母語話者言語モデルにより求めた場合と非母語話者言語モデルにより求めた場合とで比較し,判別を行う.n を大きくすると,母語話者/非母語話者固有の特徴をより良く扱うことが可能となり,判別精度の向上が期待できる反面,ゼロ頻度問題およびスパースネスの問題が顕在化し,品詞 n-gram モデルのパラメタの最尤推定値を信頼することはできくなる.そこで,提案手法では,仮説検定に基づいた方法で両言語モデルにおける生起確率の比を推定する.実験の結果,従来手法を上回る 92.5% の精度で判別できることを確認している.
  • Vinh Van Nguyen, Minh Le Nguyen, Akira Shimazu
    2009 年 16 巻 1 号 p. 1_47-1_65
    発行日: 2009年
    公開日: 2011/09/14
    ジャーナル フリー
    In this paper, we present a Conditional Random Fields (CRFs) framework for the Clause Splitting problem. We adapt the CRFs model to this problem in order to use very large sets of arbitrary, overlapping and non-independent features. We also extend N-best list by using the Joint-CRFs (Shi and Wang 2007). In addition, we propose the use of rich linguistic information along with a new bottom-up dynamic algorithm for decoding to split a sentence into clauses. The experiments show that our results are competitive with the state-of-the art results.
  • 石下 円香, 森 辰則
    2009 年 16 巻 1 号 p. 1_67-1_100
    発行日: 2009年
    公開日: 2011/09/14
    ジャーナル フリー
    本論文では,リスト型質問応答に対する回答群の選択手法を提案する.リスト型質問応答とは,与えられた質問に対し決められた知識源の中から過不足なく解を見つけ列挙するタスクである.提案手法では,既存の質問応答システムが解候補に付与するスコア分布を利用する.解候補を,そのスコアを基にいくつかのクラスタに分離することを考える.すなわち,それぞれのクラスタを一つの確率分布とし,各確率分布のパラメタを EM アルゴリズムにより推定する.そして,それぞれの分布を正解集合を形成するスコア分布と不正解集合を形成するスコア分布のどちらであるかを推定し,正解集合のスコア分布に由来すると推定された解候補群を最終的な回答とする.質問応答システムには一般に不得意な質問が存在するが,提案手法では,複数の分布のパラメタを比較することにより,質問応答システムが正解を適切に見つけられているか否かを判定することも可能である.評価実験によれば,スコア分布を求め,それを利用することがリスト型質問応答に対して有効に働くことがわかった.
  • 鈴木 敏
    2009 年 16 巻 1 号 p. 1_101-1_116
    発行日: 2009年
    公開日: 2011/09/14
    ジャーナル フリー
    辞書の定義文を基にした上位語情報の抽出手法を提案し,その結果に基づく単語オントロジーの自動生成を試みた.提案するのは再帰的語義展開による情報抽出手法である.本手法では定義文を再帰的に展開し,巨大な単語集合として定義文を再定義する.このとき,定義文中に上位語が含まれるという仮定を利用すれば,非常に多くの単語を上位語候補とすることができる.この手法では上位語となる尤もらしさの指標を得ることができるため,これを利用して多数の候補の中から上位語を効率よく選択できるようになる.本手法を適用した上位語抽出実験では,構文解析を用いた既存手法を上回る精度を示した.更に本論文では,取り出された上位語情報を用いて単語オントロジーの自動生成を試みた.自動生成の手法はまだ完全なものではないが,実験結果は上位語情報の有用性を示すものであり,今後のオントロジー自動生成の可能性を示している.
feedback
Top