自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
6 巻, 3 号
選択された号の論文の10件中1~10を表示しています
  • 井佐原 均
    1999 年 6 巻 3 号 p. 1-2
    発行日: 1999/04/10
    公開日: 2011/03/01
    ジャーナル フリー
  • Virach Sornlertlamvanich, Kentaro Inui, Hozumi Tanaka, Takenobu Tokuna ...
    1999 年 6 巻 3 号 p. 3-22
    発行日: 1999/04/10
    公開日: 2011/03/01
    ジャーナル フリー
    This paper shows the empirical results of our probabilistic GLR parser based on a new probabilistic GLR language model (PGLR) against existing models based on the same GLR parsing framework, namely the model proposed by Briscoe and Carroll (B & C), and two-level PCFG or pseudo context-sensitive grammar (PCSG) which is claimed to be a context-sensitive version of PCFG. We evaluate each model in character-based parsing (morphological and syntactic analysis) tasks, in which we have to consider the word segmentation and multiple part-of-speech problems. Parsing a sentence from the morphological level makes the task much more complex because of the increase of parse ambiguity stemming from word segmentation ambiguities and multiple corresponding sequences of parts-of-speech. As a result of the well-founded probabilistic nature of PGLR, the model accurately incorporates probabilities for word prediction, by way of encoding pre-terminal n-gram constraints into LR parsing tables. The PGLR model empirically outperforms the other two models in all measures, on experimentation with the ATR Japanese corpus. To examine the appropriateness of PGLR using an LALR table, we test the PGLR model using both an LALR and CLR table. The results show that parsing with the PGLR model using LALR table returns the best performance in parse accuracy, parsing time and memory space consumption.
  • 荒木 哲郎, 池原 悟, 三品 尚登
    1999 年 6 巻 3 号 p. 23-41
    発行日: 1999/04/10
    公開日: 2011/03/01
    ジャーナル フリー
    会話文では, 言い直しなどの冗長な表現が含まれ, 解析を困難にしている. 本論文では, 言い直し表現は繰り返し型が多いことに着目して, べた書き音節表記された会話文を対象に, 任意な位置に現われる言い直しの音節列を抽出する方法を提案した. 提案した方法は, n-gramモデルを用いて, 同一文中に連続的に出現する繰り返し表現 (全てが同一な文字列からなる繰り返し表現だけでなく, 一部が異なる文字列に置き換わった繰り返し表現も含む) を含んだべた書き音節列 (前方換言列候補と呼ぶ) を抽出する処理と, 音節文字の前方向および後方向のマルコフ連鎖モデルを用いて音節文字間の結合力を評価し, 前方換言列を決定する2つの処理から構成される. 前方換言列候補を抽出する第一の処理では, (1) 最大のn文字連鎖およびその中に内包される部分列をすべて抽出する方法 (網羅型), (2) 最大のn文字連鎖だけを抽出し, その他の部分列はすべて除外する方法 (最大候補優先型), (3) 最大のn文字連鎖を含め内包される全ての部分列の中から, 文字列間の結合力が最も小さい候補を抽出する方法 (結合評価型) の3種の方法の優劣を評価した. 本方式をATRの《旅行に関する対話文》データに適用した結果, (i) 結合評価型抽出法が最も優れており, 前方換言列の検出が, 再現率=91.5%および適合率=94.3%と高い精度が得られること, (ii) この結果は, 従来の仮文節境界の推定法とマッチング法を組み合わせた方法に比べて, 適合率で約14%および再現率で約25%程度検出精度が高いことがわかり, この手法の有効性が確認できた.
  • 望月 源, 本田 岳夫, 奥村 学
    1999 年 6 巻 3 号 p. 43-58
    発行日: 1999/04/10
    公開日: 2011/03/01
    ジャーナル フリー
    一般に、テキストは複数の文から形成されており、文間には何らかの意味的なつながりがある.テキスト中の意味的にまとまったある範囲が, 談話セグメントや意味段落と呼ばれる一貫性のある談話の単位を構成する. また, 談話セグメント間の関係によってテキスト全体の談話構造が形成される. こうしたことから, セグメント境界の検出は, テキスト構造解析の第一歩であると考えられる. テキスト中には, セグメント境界の検出に利用できる多くの表層的手がかりが存在する. 本稿では, 複数の表層的手がかりを組み合わせて日本語テキストのセグメント境界を検出する手法について述べる. セグメント境界の検出は, 複数の手がかりのスコアを基に各文間のセグメント境界への成り易さあるいは成り難さを表す文間スコアを計算することで行われる. 文間のスコアは, 各手がかりのスコアに重要度に応じた重みをかけ, この重み付きスコアを足し合わせることにより計算する. 本稿では, 各手がかりへの重み付けを人手によらず, 訓練データを用いた統計的手法により自動的に行う手法について述べる. また複数の手がかりの中で, 実際にセグメント境界の検出に有効な手がかりだけを選択することで訓練データへの過適合を避ける手法についても述べる.
  • 関根 聡, 内元 清貴, 井佐原 均
    1999 年 6 巻 3 号 p. 59-73
    発行日: 1999/04/10
    公開日: 2011/03/01
    ジャーナル フリー
    係り受け解析は日本語文解析の基本的な方法として認識されている. 日本語の係り受けは, ほとんどが前方から後方であるため, 解析は文末から文頭の方向へ解析を進める事は効率的であり, これまでもルールベースの解析手法ではいくつかの提案がある. また, 統計的文解析は英語, 日本語等の言語を問わず数多くの提案があり, その有効性が確認されている.本論文では, 上記の二つの特徴を兼ね備えた日本語文係り受け解析を提案し, その実験結果を示し, 有効性を実証する. システムの精度は, 正しい文節解析ができた所から開始した場合, 京大コーパスを使用した実験で係り受け正解率が87.2%, 文正解率が40.8%と高い精度を示している. ビームサーチのビーム幅を調整した実験では, ビーム幅を小さくする事による精度の劣化が認められなかった. 実際にビーム幅が1の際に得られた結果の95%はビーム幅20の時の最良の結果と同一であった. また, N-best文正解率を見た時には, Nが20の時には78.5%という非常に高い結果を示している. 解析速度は, 解析アルゴリズムから推測される通り, 文節数の2乗に比例し, 平均0.03秒 (平均文節数10.0), 最長文である41文節の文に対しては0.29秒で解析を行なった.
  • 菊池 浩三, 伊東 幸宏
    1999 年 6 巻 3 号 p. 75-99
    発行日: 1999/04/10
    公開日: 2011/06/07
    ジャーナル フリー
    係り解釈を正確に行うことは, 自然言語解析における重要な課題である. 近年大量のコーパスが利用できるようになり, 統計的確率をべースに係りを決定する動きがある. 本論文ではイ・ナ形容詞を含む連体修飾の係り関係の明確化に取り組んだ. 係りを決定するために, 大量の技術文と新聞文より約4400の対象文を抽出し解析した.「名詞1+形容詞+名詞2」の構造を持つ形容詞を含む連体修飾を各語間の関係として捉え, 名詞1の係り先が形容詞か否かを調べた. その結果, 係りに関与する7つの効果的ルールを検出することができた. また, それらは以下の3パターンに分類できた.
    ・形容詞とは独立に前後の名詞により係りが決定できるもの.
    ・形容詞と前後の名詞の関係により係りが決定できるもの.
    ・形容詞単独の特性により係りが決まるもの.
    3パターンに分類された, 7つのルールを評価文に適用した結果, 形容詞を含む連体修飾では, 約97%精度で係りを決定することができた.
  • 望月 源, 岩山 真, 奥村 学
    1999 年 6 巻 3 号 p. 101-126
    発行日: 1999/04/10
    公開日: 2011/03/01
    ジャーナル フリー
    計算機上の文書データの増大に伴い, 膨大なデータの中からユーザの求める文書を効率よく索き出す文書検索の重要性が高まっている. 伝統的な検索手法では, 文書全体を1つのまとまりとして考え検索要求との類似度を計算する. しかし, 実際の文書, 特に長い文書では様々な話題が存在し, 文書中の各部分によって扱われる話題が異なる場合も多く見られる. そのため, 最近の文書検索では, ユーザの入力した検索要求と関連の高い文書の一部分を取り出して類似度を計算するパッセージレベルの検索が注目されている. パッセージ検索におけるパッセージとは, 文書中で検索要求の内容と強く関連する内容を持つ連続した一部分のことを言う. パッセージ検索では, このパッセージをどのように決定するかが問題となる. 良いパッセージを決定するためには, パッセージ自体が意味的なまとまりを形成し, パッセージの位置やサイズが検索要求や文書に応じて柔軟に設定される必要があると考えられる. 本稿では, 文書中の文脈情報である語彙的連鎖を利用し, 検索要求と文書の適切な類似度を計算できるパッセージ決定手法について述べる. また, このパッセージを使用し, 検索精度を向上させる検索手法について述べる.
  • 安藤 真一, YVES LEPAGE
    1999 年 6 巻 3 号 p. 127-143
    発行日: 1999/04/10
    公開日: 2011/03/01
    ジャーナル フリー
    本稿では, ツリーバンクを用いて入力文と類似した文の構文木から入力文に対する構文木を類推する手法を提案する. この手法は用例に基づく解析手法の1つであるが, 統計情報や意味的類似性ではなく, 複数のツリーバンク内データの問で定義される特定の類似関係に基づいて構文解析を行う. 特にここではツリーバンク内の知識表現形式をそのまま使って構文解析を行うため, 比較的容易に他の解析手法との融合を考えることができる. またこの手法は辞書などを用いず, データ間の類似性のみに基づいて解析を行うため, 未知語などを含む入力に対しても頑健に働く. ここでは特に基本原理として働く類似関係の有効性を評価するためにPenn Treebankを用いて評価実験を行った. その結果, 単語の表層情報と品詞情報を用いることで解析可能な文の約70%が一意に正しく解析でき, また誤ったものについても比較的正解に似た構文木を出力することができた.
  • Katerina T. Frantzi, Sophia Ananiadou
    1999 年 6 巻 3 号 p. 145-179
    発行日: 1999/04/10
    公開日: 2011/03/01
    ジャーナル フリー
    In this paper we present a domain-independent method for the automatic extraction of multi-word (technical) terms, from machine-readable special language corpora. The method, (C-value/NC-value), combines linguistic and statistical information. The first part, C-value enhances the common statistical measure of frequency of occurrence for term extraction, making it sensitive to a particular type of multi-word terms, the nested terms. Nested terms are those which also exist as substrings of other terms. The second part, NC-value, gives two things: 1) a method for the extraction of term context words (words that tend to appear with terms), 2) the incorporation of information from term context words to the extraction of terms. We apply the method to a medical corpus and compare the results with those produced by frequency of occurrence also applied on the same corpus. Frequency of occurrence was chosen for the comparison since it is the most commonly used statistical method for automatic term extraction to date. We show that using C-value we improve the extraction of nested multi-word terms, while using context information (NC-value) we improve the extraction of multi-word terms in general. In the evaluation sections, we give directions for the further improvement of the method.
  • 岩山 真, 徳永 健伸
    1999 年 6 巻 3 号 p. 181-198
    発行日: 1999/04/10
    公開日: 2011/03/01
    ジャーナル フリー
    本論文では, 文書中のパッセージを考慮して文書にトピックを付与するパッセージ分類という手法を提案し評価する. 従来の文書分類は, 文書全体にトピックを付与していたため, 文書が長くなるにつれトピックの付与精度が悪くなる. 文書が長くなると, 互いに関連の薄いトピックを複数個含む場合が多く, かつ, 各々のトピックは, 文書全体のほんの一部分にしか関連しない場合が多いからである. パッセージ分類では, 個々のパッセージにトピックを付与することでこの問題を解決する. 実験の結果, 従来の文書分類に比べ, 特に長い文書において高い分類精度を得ることができた. パッセージ分類のもう一つの利点は, トピック毎に深く関連するパッセージを集めることができる点である. これは視点を考慮した要約に応用できる. ユーザは興味あるトピック, つまり視点を指定することで, 個々にカスタマイズされた要約を得ることができる. 本論文では, パッセージ分類によって抽出したパッセージ集合が要約として適切かどうかを, パッセージ間の連続度, パッセージによる元文書の被覆度という観点から分析する.
feedback
Top