自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
12 巻, 1 号
選択された号の論文の7件中1~7を表示しています
  • 中岩 浩巳
    2005 年12 巻1 号 p. 1-2
    発行日: 2005/01/10
    公開日: 2011/03/01
    ジャーナル フリー
  • 野呂 智哉, 橋本 泰一, 徳永 健伸, 田中 穂積
    2005 年12 巻1 号 p. 3-32
    発行日: 2005/01/10
    公開日: 2011/03/01
    ジャーナル フリー
    構文解析において, 多様な言語現象を扱うためには大規模な文法が必要となるが, 一般に人手で文法を開発することは困難である.一方, 大規模な構文構造付きコーパスから様々な統計情報を取り出し, 自然言語処理に利用する研究が多くの成果をあげてきており, 構文構造付きコーパスの整備が進んでいる.このコーパスから大規模な文脈自由文法 (CFG, 以下, 文法と略す) を抽出することが考えられる.ところが, コーパスから抽出した文法をそのまま用いた構文解析では多数の解析結果 (曖昧性) を作り出すことが避けられないことが問題であり, それが解析精度の悪化や解析時間, 使用メモリ量の増大の要因ともなる.効率的な構文解析を行うためには, 曖昧性を増大させる要因を分析し, 構文解析の段階では曖昧性を極力抑えるよう文法やコーパスを変更する必要がある.本論文では, 構文解析で出力される曖昧性を極力抑えた文法を開発するための具体的な方針を提案し, その有効性を実験により明らかにしている.
  • Mohammad Teduh Uliniansyaht, Shun Ishizaki
    2005 年12 巻1 号 p. 33-50
    発行日: 2005/01/10
    公開日: 2011/03/01
    ジャーナル フリー
    It is common that a word in any natural language has often more than one meaning/sense. A word sense disambiguation (WSD) system is designed to determine which one of the senses of a polysemous word is invoked in a particular context around the word. We propose methods to disambiguate senses of polysemous words by using Naive Bayesian classifier method. A few sets of experiment data were taken from Kompas daily newspaper homepage and used for the system construction. We modified the original algorithm of Naive Bayesian method to apply it to the Indonesian language analysis. The experiments showed that our system achieved good accuracies (73-99%).
  • 山本 和英, 安達 康昭
    2005 年12 巻1 号 p. 51-78
    発行日: 2005/01/10
    公開日: 2011/03/01
    ジャーナル フリー
    換言・削除規則を用いた国会会議録の要約手法とその評価について報告する.国会会議録には, 丁寧表現の頻出や独特な言い回し等の特徴がある.また, 会議における発言の書き起こしであるため, 話し言葉の特徴も見られる.本論文では, この様な特徴的な表現に着目し, 換言・削除することで要約を試みた.まず, 単語n-gramの統計結果から得られた頻出する敬語表現を普通体の表現に言い換えた.次に, 手がかり語を用いて頻出する冗長な表現や挿入句を推定し削除することによって要約した.これらの処理を約20年分の会議録に対して行なった結果, 自由発話が含まれる会議録では80%程度の要約率が得られた.また, CSJコーパスに対して本システムを適用した結果, 平均要約率が約84%であった.したがって, 本システムが国会会議録以外の話し言葉データに対しても有効に働くことを確認した.
  • 徳永 泰浩, 乾 健太郎, 松本 裕治
    2005 年12 巻1 号 p. 79-105
    発行日: 2005/01/10
    公開日: 2011/03/01
    ジャーナル フリー
    本論文では, チャット対話の対話構造を解析する手法を提案し, その実現可能性について論じる.まず, 発言問の二項関係である継続関係と応答関係に対話構造を分解し形式化する.継続関係とは, 質問やそれに対する応答を構成する同一話者による発言問の関係である (例えば, 1つの質問を構成する2つの発言「あなたは」と「学生ですか?」の関係, あるいは1つの応答を構成する2つの発言「はい」と「そうです」の関係).応答関係とは, 質問と応答のような異なる話者による発言間の関係である.これらの関係に基き, 発言をまとめあげることで対話構造を解析する.本研究では, この問題をある発言とそれに先行する発言との間に継続関係または応答関係があるか否かの2値分類問題に分解し, コーパスベースの教師あり機械学習を試みた.解析対象は, 対話構造を付与したコーパスである (2人対話と3人対話の合計69対話, 11905発言).本手法による対話構造全体の正解との一致率は, 2人対話87.4%, 3人対話84.6%であった.
  • 阿辺川 武, 奥村 学
    2005 年12 巻1 号 p. 107-123
    発行日: 2005/01/10
    公開日: 2011/03/01
    ジャーナル フリー
    本稿では, 日本語の連体修飾節と被修飾名詞の関係において言語学的知見から得られた要素を用いて, 連体修飾節内の用言と被修飾名詞間の格関係の有無を判別する, いわゆる内の関係であるか外の関係であるかの判別を行う手法を提案する.従来の手法では, 主に動詞と名詞の共起関係を用いて, 内の関係の可能性を調査するのみで, 外の関係であるかを積極的に求めることはできなかった.本稿では, 共起関係に加え, 外の関係をとる度合をいくつか定義し, それらの情報を用いて判別する手法を提案する.実際の連体修飾節を用いて判別実験を行った結果, 従来の格フレームを用いた手法よりも高い正解率を示すことがわかった.
  • 新里 圭司, 鳥澤 健太郎
    2005 年12 巻1 号 p. 125-150
    発行日: 2005/01/10
    公開日: 2011/03/01
    ジャーナル フリー
    本稿では, HTML, 文書より単語間の上位下位関係を自動獲得する手法を提案する.従来より, 単語間の上位下位関係は自然言語処理において重要な知識であると見なされており, 多くの自動獲得手法が提案されてきた.しかし, それらの多くは名詞句の並置などの文の表層的なパターンに注目するものであり, 広範な上位下位関係を獲得することが難しいという問題を抱えている.そのため本稿で提案する手法は, これらとは異なるアプローチをとる.より具体的には, 1) HTMLタグにより与えられるHTML文書の構造, 2) 従来より情報検索などで使われてきたdf, idfなどの統計量, 3) 大量のテキストから獲得した名詞と動詞の係り受け関係, 4) 予備実験より得られた知見に基づくヒューリスティックなルール, の4つの要素を組み合わせることで, 様々な単語間の上位下位関係を自動的に獲得することを目指す.
feedback
Top