自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
9 巻, 5 号
選択された号の論文の8件中1~8を表示しています
  • 国際的に影響力をもつ学会へ
    仁科 喜久子
    2002 年 9 巻 5 号 p. 1-2
    発行日: 2002/10/10
    公開日: 2011/03/01
    ジャーナル フリー
  • 工藤 拓, 松本 裕治
    2002 年 9 巻 5 号 p. 3-21
    発行日: 2002/10/10
    公開日: 2011/03/01
    ジャーナル フリー
    本稿では, Support Vector Machine (SVM) に基づく一般的なchunk同定手法を提案し, その評価を行う.SVMは従来からある学習モデルと比較して, 入力次元数に依存しない高い汎化能力を持ち, Kernel関数を導入することで効率良く素性の組み合わせを考慮しながら分類問題を学習することが可能である.SVMを英語の単名詞句とその他の句の同定問題に適用し, 実際のタグ付けデータを用いて解析を行ったところ, 従来手法に比べて高い精度を示した.さらに, chunkの表現手法が異なる複数のモデルの重み付き多数決を行うことでさらなる精度向上を示すことができた.
  • 今村 賢治
    2002 年 9 巻 5 号 p. 23-42
    発行日: 2002/10/10
    公開日: 2011/03/01
    ジャーナル フリー
    本稿では, 機械翻訳知識の自動獲得を目的とした, 2言語の対訳文の階層的句アライメントについて提案する. 従来提案されてきた句アライメント方法は, いずれも構文解析結果を取得したのちに, 部分木同士の対応をとるものであった. 本稿で提案する方式は, 構文解析器が持つ部分解析結果を句対応スコアと呼ぶ構造類似性評価尺度で評価し, 前向きDP後ろ向きAアルゴリズムを用いて最適な組み合わせを探索する. この方式を用いることにより, 実験では従来手法に比べ2倍の同等句を得ることができ, そのときの精度の低下はほとんどないことが観察された.
    また, 本提案方式は単語アライメントを用いる. この単語レベルの対応は, 内容語のみでなく, 機能語間対応を含めた方が句アライメント精度が向上する. その一般形として, 本方式に適合した単語アライメントは, 再現率重視のものが望ましいことを併せて示す
  • 梅村 恭司, 真田 亜希子
    2002 年 9 巻 5 号 p. 43-70
    発行日: 2002/10/10
    公開日: 2011/03/01
    ジャーナル フリー
    この論文で計算するものは, ある文字列をκ回以上含むドキュメントの総数 (dfκ) である. 全ての部分文字列に対してこれらの統計量を保存する場合O (N2) の表が必要となり, コーパスの大きさを考えると, この表は実用的でなく, 通常の計算機では実際に作ることは難しい.しかし, κ=1の場合, Suffix Array, 文字列のクラス分けを利用して, 統計量をクラス毎に保存することで, これを0 (N) の表にできるという報告がある (Yamamoto, Church 2001). このクラスは同じ統計量を持つ文字列の集合であり, コーパス内の全ての文字列の統計量はクラス毎に作成した統計量の表から取り出すことができる.しかし, この方法はκ ≧2の場合には使用できない.我々は, κ≧2の場合にも使用でき, 表を用いることによって文字列の統計量を計算するアルゴリズムを提案する.本稿ではdfκ の性質を述べた後, 単純な計算方法と提案するアルゴリズムとの比較を行う.このアルゴリズムは, 前処理として表を作成するために0 (N log N) の計算時間とO (N) のメモリを使用し, その表を用いてO (logN) 時間で文字列の統計量を取り出すことができる.
  • 桝井 文人, 福本 淳一, 椎野 努, 河合 敦夫
    2002 年 9 巻 5 号 p. 71-92
    発行日: 2002/10/10
    公開日: 2011/03/01
    ジャーナル フリー
    本論文では, テキスト中に出現する比喩表現を認識するために, 確率的な尺度を用いて, 概念 (単語) 間の比喩性を検出する手法について述べる. 比喩性を検出するための確率的な尺度として, “顕現性落差” と “意外性” を設定する. “顕現性落差” は, 概念対を比較したときに, クローズアップされる顕現特徴の強さをはかる尺度であり, 概念同士が理解可能か否かの判断に用いる. “顕現性落差” は, 確率的なプロトタイプ概念記述を用いて, 概念の共有属性値集合が持つ冗長度の差で定量化する. “意外性” は, 概念の組み合わせがどれほど稀であるかをはかる尺度であり, 概念同士が例示関係であるか否かの判断に用いる. “意外性” は, 単語間の意味距離を用いて定量化する. 二つの尺度を併用することによって, 比喩関係を持つ概念対, すなわち, 比喩性の判定が可能となる. 二つの尺度を計算するために, コーパス中から抽出した語の共起情報を利用して知識ベースを利用する. 両尺度を用いた比喩性検出手法を検証するために, 1年分の新聞記事コーパスから構築した知識ベースと, 比喩関係・例示関係・無意味の各単語対が混在するデータ100組を用いて, 単語対の判別実験を行った. その結果, 70%以上の適合率で比喩関係単語対が判別できることがわかり, 本手法の有効性が確認できた.
  • 属性信頼度の考え方に基づく属性重みの決定
    小島 一秀, 渡部 広一, 河岡 司
    2002 年 9 巻 5 号 p. 93-110
    発行日: 2002/10/10
    公開日: 2011/03/01
    ジャーナル フリー
    自然言語の意味を理解するコンピュータの実現には, 入力された語から関連の強い語を導き出す連想システムが必要と考える. 本研究の目的はこのような連想システムの主要要素である概念ベースの構築である. 我々の開発した連想システムは電子化辞書から作られた概念ベースと, 語間の関係の深さを定量化する関連度計算アルゴリズムから構成される. 概念ベースでは語の意味を語の持つ意味の特徴を表す語 (属性) とその語に対する重要性を表す重みの集合で定義している. 本研究においては, 概念を概念ベースによって定義される語の連鎖としてモデル化している. 機械構築された最初の概念ベースは不適切な属性が多く, 重みの信頼性も低い. 本稿ではこの機械構築された概念ベースを出発点とし, 雑音属性を除去し, より適切な重みを付与するために, 属性信頼度の考えに基づく新しい精錬を提案している. さらに, 人間の感覚による評価とテストデータの関連度を用いた実験によって提案方式の有効性を示した.
  • 「も」, 「さえ」, 「でも」
    ト 朝暉, 謝 軍, 池田 尚志
    2002 年 9 巻 5 号 p. 111-130
    発行日: 2002/10/10
    公開日: 2011/03/01
    ジャーナル フリー
    「も, さえ, でも… 」などのとりたて詞による表現は日本語の機能語の中でも特有な一族である. その意味上と構文上の多様さのために, 更に中国語との対応関係の複雑さのために, 日中機械翻訳において, 曖昧さを引き起こしやすい. 現在の日中市販翻訳ソフトでは, とりたて表現に起因する誤訳 (訳語選択, 語順) が多く見られる. 本論文では, とりたて詞により取り立てられる部分と述語部の統語的, 意味的な特徴, 更に中国語側での取り立てられる部分の統語的意味的な特徴によって, とりたて詞の意味の曖昧さを解消する手順を提案した. また, とりたて詞に対応する中訳語の位置について, 訳語の文法上の位置に対する約束と, 取り立てられる部分の中国語側での成分などから特定する手順を提案した. またこれらの手順を, 「も, さえ, でも」の三つのとりたて詞をそれぞれ含む100文に対して手作業で検証した. 正訳率はすべて80%以上となり, 本手法の有効性が示された.
  • 小作 浩美, 内山 将夫, 村田 真樹, 内元 清貴, 井佐原 均
    2002 年 9 巻 5 号 p. 131-148
    発行日: 2002/10/10
    公開日: 2011/03/01
    ジャーナル フリー
    2000年言語処理学会第6回年次大会プログラムの作成において, 言語処理技術を適用し, 大会プログラムを自動作成することを試みた. 本稿では, 第5回大会のデータを利用して, 大会プログラム作成のために行なった一連の実験について説明する. その結果に基づき, 実際に第6回の大会プログラムを作成した手続きについて報告する. 大会プログラム作成にキーワード抽出および文書分類の言語処理技術は十分に利用でき, 事務手続きの効率化に貢献できることを報告する. また, 大会終了後のアンケート調査の結果を示し, 参加者からの評価についても報告する.
feedback
Top