自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
4 巻, 1 号
選択された号の論文の9件中1~9を表示しています
  • 中川 裕志
    1997 年 4 巻 1 号 p. 1-2
    発行日: 1997/01/10
    公開日: 2011/03/01
    ジャーナル フリー
  • 吉見 毅彦, JIRI JELINEK, 西田 収, 田村 直之, 村上 温夫
    1997 年 4 巻 1 号 p. 3-21
    発行日: 1997/01/10
    公開日: 2011/03/01
    ジャーナル フリー
    テキストの可能な解釈の中から最良の解釈を効率良く選び出せる機械翻訳システムを実現するために, 最良解釈を定義する制約 (拘束的条件) と選好 (優先的条件) をText-Wide Grammar (TWG) として記述し, 圧縮共有森 (packed shared forest) 上での遅延評価による優先度計算機構によってTWGを解釈実行する. TWGは, 形態素, 構文構造, 意味的親和性, 照応関係に関する制約と選好を備えたテキスト文法である. 照応関係に関する制約は, 陳述縮約に関する規範を主な拠り所としている. TWGによれば, テキストの最良解釈は, 形態素に関する選好による評価点が最も高く, 構文構造, 意味的親和性, 照応関係に関する選好による各評価点の重み付き総和が最も高い解釈である. 処理機構は, 意味解析と照応解析を, 構文解析系から受け取った圧縮共有森上で行なう. その際, 最良解釈を求めるために必要な処理だけを行ない, それ以外の処理の実行は必要が生じるまで保留することによって無駄な処理を避ける. 保留した処理を必要に応じて再開することによって, 最良解釈以外の解釈も選び出せる.
  • 伝 康晴
    1997 年 4 巻 1 号 p. 23-40
    発行日: 1997/01/10
    公開日: 2011/03/01
    ジャーナル フリー
    近年の音声認識技術の進歩によって, 話し言葉の解析は自然言語処理の中心的なテーマの1つになりつつある. 話し言葉の特徴は, 言い淀み, 言い直し, 省略などのさまざまな不適格性である. 書き言葉には見られないこれらの現象のために, 従来の適格文の解析手法はそのままでは話し言葉の解析には適用できない. 本稿では, テキスト (漢字仮名混じり文) に書き起こされた日本語の話し言葉の文からその文の格構造を取り出す構文・意味解析処理の中で, 言い淀み, 言い直しなどの不適格性を適切に扱う手法について述べる. 本手法は, 適格文と不適格文を統一的に扱う統一モデルに基づいており, 具体的には, 係り受け解析の拡張によって実現される. まず, 音声対話コーパスからの実例をあげながら統一モデルの必要性を述べ, 次に, 本手法の詳細を説明した後, その有効性を解析の実例をあげるとともに実験システムの性能を評価することで示す. その結果, さまざまな不適格性を含む複雑な話し言葉の文が, 係り受け解析を基本とする本手法によってうまく扱えることを示し, さらに, 定量的にも, 試験文の約半数に完全に正しい依存構造が与えられることを示す.
  • 伝 康晴
    1997 年 4 巻 1 号 p. 41-56
    発行日: 1997/01/10
    公開日: 2011/03/01
    ジャーナル フリー
    近年の音声認識技術の進歩によって, 話し言葉の解析は自然言語処理の中心的なテーマの1つになりつつある. しかし, 話し言葉の特徴である, 言い淀み, 言い直し, 省略などのさまざまな不適格性のために, 従来の適格文の解析手法はそのままでは話し言葉の解析には適用できない. 我々は, 適格文と不適格文を統一的に扱う統一モデルに基づく話し言葉の解析手法を提案した. この手法においては, 適格文の最適な解釈を求める処理と不適格性を検出・修正する処理がいずれも, 最も優先度の大きい依存関係解釈を求めるという形で実現される. 本稿では, この解析手法で用いるための優先度計算法について述べる. 本手法は, コーパスに基づく手法であり, 解釈の優先度はその解釈が学習データ中でどのくらいの頻度で生じているかに応じて与える. この際, 学習データの希薄性の問題を回避するために, 解釈の候補と完全に一致する事例だけでなく類似した事例も考慮する. 本稿では, まず, 我々の話し言葉の解析手法の概略を説明し, 次に, 本手法の詳細を説明した後, 本手法を話し言葉の構文・意味解析システム上に実装し, その性能を評価することで本手法の有効性を示す. その結果, オープン試験で, 約半数の文に完全に正しい依存構造が与えられることを示す.
  • 呉 浩東, 古郡 廷治
    1997 年 4 巻 1 号 p. 57-70
    発行日: 1997/01/10
    公開日: 2011/03/01
    ジャーナル フリー
    英語前置詞句の係り先の曖昧性は文の構造的曖昧性の典型例をなすものである. 本論文は, 選好規則と電子辞書から得られる様々な情報に基づき, 前置詞句の係り先を決定する手法を提案する. 最初に, 係り先を決める上での概念情報の役割と, それを電子辞書から抽出する方法を述べる. 次に, 概念情報をはじめ統語晴報, 語彙情報に基づく前置詞句の係り先を決める選好規則について述べ, 選好的曖昧性解消モデルを提案する. このモデルでは選好規則によって一意的に係り先が決まらなかった場合, 補助的に確率を使い, コーパスから得られるデータから確率計算をすることにより係り先の決定を行っている. 使用頻度の高い12の前置詞旬を含む2877文について行った実験では, 86.9%の正解率を得た. これは既存の手法に比べ, 2%から5%よい結果となっている.
  • 朴 哲済, 筧 捷彦
    1997 年 4 巻 1 号 p. 71-86
    発行日: 1997/01/10
    公開日: 2011/03/01
    ジャーナル フリー
    本稿では, 大量の未知語の形態素情報の自動的な蓄積手法の研究について述べる. その内容は, 形態素の品詞・活用種類・活用形 (これをここでの形態素属性とする) の推定及び統計的手段による推定の精度向上と, 日本語における形態素の推定である. 文章内の語間の連接関係に注目することによって, 未知語の形態素属性を推定する. そして, 形態素の字種と連接関係の頻度統計を適用することによって, 未知語の形態素属性の推定精度を向上させる. また, “分ち書き” されていない日本語においては, 形態素の推定が必要になる. 特定の品詞 (助詞と助動詞) を完全な情報とみなし, 形態素を構成する文字種の並び規則から分割の基点をもとめ, すでに登録されている単語にもとづき, 形態素推定を行なう. これを形態素属性の推定を行なうプロセスに送ることで, 推定結果から形態素であるものが選択される. 以上の手法を日本語に対して適用するシステムを構築し, 朝日新聞社説6ヶ月分のコーパス中の約240,000形態素を用いて実験を行なった. その結果, 活用品詞に対しては90.5%, その他の品詞に対しては95.2%, 全体の平均としては94.6%の形態素の推定成功率を得て228, 450形態素の形態素属性を推定し, 新たにユニークな形態素15, 523個を蓄積することができた.
  • 村田 真樹, 長尾 真
    1997 年 4 巻 1 号 p. 87-109
    発行日: 1997/01/10
    公開日: 2011/03/01
    ジャーナル フリー
    日本語文章における代名詞などの代用表現の指す対象が何であるかを把握することは, 対話システムや高品質の機械翻訳システムを実現するために必要である. そこで, 本研究では用例, 表層表現, 主題・焦点などの情報を用いて指示詞・代名詞・ゼロ代名詞などの指示対象を推定する. 従来の研究では, 代名詞などの指示対象の推定の際には意味的制約として意味素性が用いられてきたが, 本研究では対照実験を通じて用例を意味素性と同様に用いることができることを示す. また, 連体詞形態指示詞の推定に意味的制約として「AのB」の用例を用いるなどの新しい手法を提案する. 指示対象を推定する枠組は, 以下のとおりである. 指示対象の推定に必要な情報をすべて規則にする. この規則により指示対象の候補をあげながら, その候補に得点を与える. 得点の合計点が最も高い候補を指示対象とする. この枠組では規則を柔軟に書くことができるという利点がある. この枠組で実際に実験を行なった結果, 指示詞・代名詞・ゼロ代名詞の指示対象を学習サンプルにおいて87%の正解率で, テストサンプルにおいて78%の正解率で, 推定することができた.
  • 吉見 毅彦, JIRI JELINEK
    1997 年 4 巻 1 号 p. 111-123
    発行日: 1997/01/10
    公開日: 2011/03/01
    ジャーナル フリー
    本稿では, 文とその後方に位置する名詞句との照応を, 複雑な知識や処理機構を用いず, 表層的な情報を用いた簡単な処理によって解析する方法を提案する. 文と名詞句の構文構造を支配従属構造で表現し, それらの構造照合を行ない, 照合がとれた場合, 照応が成立するとみなす. 構造照合に用いる規則は, 文が名詞句に縮約されるときに観察される現象のうち, 主に, 用連助詞から体連助詞への変化, 情報伝達に必須でない語の削除に着目して定義する. このような簡単な処理によって前方照応がどの程度正しく捉えられるかを検証するための実験を, サ変動詞が主要部である文と, そのサ変動詞の語幹が主要部である名詞句の組を対象として行なった. 実験では, 新聞記事から抽出した178組のうち133組 (74.7%) について, 本手法による判定と人間による判定が一致した. また, 構造照合で類似性が最も高いと判断された支配従属構造の組を優先解釈として出力することによって, 入力の時点で一組当たり平均3.4通り存在した曖昧性が1.8通りへ絞り込まれた.
  • 白井 清昭, 徳永 健伸, 田中 穂積
    1997 年 4 巻 1 号 p. 125-146
    発行日: 1997/01/10
    公開日: 2011/03/01
    ジャーナル フリー
    本論文では, 括弧付きコーパスから確率文脈自由文法を効率良く自動的に抽出する方法を提案する. 文法規則の抽出は, 日本語の主辞が句の一番最後の要素であるという特徴を利用して, 括弧付けによる構文構造の内部ノードに適切な非終端記号を与えることによって行う. また, 文法規則の確率は規則のコーパスにおける出現頻度から推定する. さらに, 文法サイズの縮小と解析木数の抑制という2つの観点から, 抽出した文法を改良するいくつかの方法を提案する. 文法サイズの縮小は, 文法に含まれる冗長な規則を自動的に削除することによって行う. 解析木数の抑制は, (1) 同一品詞列に対して右下がりの二分木のみを生成し, (2) “記号”と“助詞”の2つの品詞を細分化し, (3) 法や様態を表わす助動詞に対する構造を統一することにより行う. 最後に, 本手法の評価実験を行った. 約180,000の日本語文から確率文脈自由文法の抽出およびその改良を行ったところ, 2, 219の文法規則を抽出することができた. 抽出された文法を用いて20,000文のテスト例文を統語解析したところ, 受理率が約92%となり, 適用範囲の広い文法が得られたことを確認した. また, 生成確率の上位30位の解析木の評価を行ったところ, 括弧付けの再現率が約62%, 括弧付けの適合率が約74%, 文の正解率が約29%という結果が得られた.
feedback
Top