自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
12 巻, 5 号
選択された号の論文の10件中1~10を表示しています
  • 丹羽 芳樹
    2005 年 12 巻 5 号 p. 1-2
    発行日: 2005/10/10
    公開日: 2011/03/01
    ジャーナル フリー
  • 外池 昌嗣, 宇津呂 武仁, 佐藤 理史
    2005 年 12 巻 5 号 p. 3-42
    発行日: 2005/10/10
    公開日: 2011/03/01
    ジャーナル フリー
    質問応答システムにおける処理の流れのうち, 何らかの方法で抽出された複数の解候補に川頁位付けし, 答えを選ぶステップのことを本論文では, 解選択のステップと呼ぶ.本論文では, 大規模かつ日々更新されるウェブを利用して, 質問文中の重要語句 (キーワード) と解候補の共起に基づく語彙的関係 (連想) の強さを測定し, これに基づいて解選択をする.この連想の強さはウェブのサーチエンジンのヒット数から計算できる尺度で表す.本論文では, この連想を利用した解選択法を2つ提案する.1つ目の手法は, あらかじめ決めておいた語の重みに基づいて質問文からキーワードを選択した後, キーワードと解候補の連想の強さに基づいて解を決める方法である.2つ目の手法は, キーワードと解候補の連想の強さを利用して, その質問にとって最も適切なキーワードと解候補を同時に選ぶ方法である.実験の結果, これら2つの手法を統合した手法で, 4択クイズ「クイズ$ミリオネア」の約79%の問題を解くことができた.また, サーチエンジンのヒット数を用いて解選択を行う従来手法の性能を有意に改善できた.
  • 宇津呂 武仁, 日野 浩平, 堀内 貴司, 中川 聖一
    2005 年 12 巻 5 号 p. 43-69
    発行日: 2005/10/10
    公開日: 2011/03/01
    ジャーナル フリー
    近年, ウェブ上の日本国内の新聞社などのサイトにおいては, 日本語だけでなく英語で書かれた報道記事も掲載しており, これらの英語記事においては, 同一時期の日本語記事とほぼ同じ内容の報道が含まれている.本論文では, これらの報道記事のページから, 日本語で書かれた文書および英語で書かれた文書を収集し, 多種多様な分野について, 分野固有の固有名詞 (固有表現) や事象・言い回しなどの翻訳知識を獲得する手法を提案する.本論文の手法には, 情報源となるコーパスを用意するコストについては, コンパラブルコーパスを用いた翻訳知識獲得のアプローチと同等に小さく, しかも同時期の報道記事を用いるため, 片方の言語におけるタームや表現の訳がもう一方の言語の記事の方に出現する可能性が高く, 翻訳知識の獲得が相対的に容易になるという大きな利点がある.翻訳知識獲得においては, まず, 報道内容がほぼ同一もしくは密接に関連した日本語記事および英語記事を検索する.そして, 関連記事組を用いて二言語間の訳語対応を推定する.訳語対応を推定する尺度としては, 関連記事組における訳語候補の共起を利用する方法を適用し, 評価実験において文脈ベクトルを用いる方法と比較し, この方法が有効であることを示す.
  • 接頭辞オを用いた表現と接頭辞ゴを用いた表現との比較
    丸元 聡子, 白土 保, 井佐原 均
    2005 年 12 巻 5 号 p. 71-90
    発行日: 2005/10/10
    公開日: 2011/03/01
    ジャーナル フリー
    Expressions of “prefix 0+main verb+auxiliary verb” and “prefix GO+main verb+auxiliary verb” are important verbal-honorific expressions in the Japanese language. It has been pointed out in past linguistic researches that the difference between the two types of expressions is that the main verb after “O” is a Japanese word and the one after “GO” is a Chinese word. However, there have hardly been any quantitative researches made on the differences of the two expressions so far. In this study, quantitative analyses were performed to reveal differences in the im-pressions of politeness between these two types of expressions by using Scheffe's paired comparison method and statistical tests. Results suggest that in regard to difference in politeness from a plain form, “prefix GO+verb of Chinese word+aux-iliary verb, ” is smaller than “prefix O+verb of Japanese word+auxiliary verb.” It is suggested that these results are due to the difference between these expressions as to the recognition of honorific expressions.
  • 吉見 毅彦, 九津見 毅, 小谷 克則, 佐田 いち子, 井佐原 均
    2005 年 12 巻 5 号 p. 91-110
    発行日: 2005/10/10
    公開日: 2011/03/01
    ジャーナル フリー
    本稿では, 前置詞句や等位構造を持つ英語固有表現とそれに対応する日本語表現を対訳コーパスから抽出する方法を提案する.提案方法では, (1) 意味的類似性と音韻的類似性の二つの観点から英語固有表現と日本語表現の対を評価し, 二種類の類似度を統合して全体としての類似度を求める処理と, (2) 前置詞句の係り先や等位構造の範囲が不適格である英語固有表現の抽出を抑制する処理を行なう.読売新聞とThe Daily Yomiuriの対訳コーパスを用いて実験を行ない, 提案方法の性能と上記のような処理を行なわないベースラインの性能を比較したところ, 提案方法で得られたF値0.678がベースラインでのF値0.583を上回り, 提案方法の有効性が示された.
  • 土屋 誠司, 奥村 紀之, 渡部 広一, 河岡 司
    2005 年 12 巻 5 号 p. 111-129
    発行日: 2005/10/10
    公開日: 2011/03/01
    ジャーナル フリー
    我々は, 人間と自然な会話を行うことができる知的ロボットの開発を目標に研究を行っている.人間は会話をする際に意識的または無意識のうちに, 様々な常識的な概念をもって会話を展開している.このように会話文章から常識的な判断を行い, 適切に応答するためには, ある語から概念を想起し, さらに, その概念に関係のある様々な概念を連想できる能力が重要な役割を果たす.本稿では, ある概念から様々な概念を連想できるメカニズムを基に, 人間が行う常識的な判断の一つである時間に関する判断を実現する方法について提案している.日常的な時間表現に着目し, 基本的な常識知識を事前に与え, 知識として持っていない多くの未知の表現にも対応できる柔軟なメカニズムの構築を実現している.結果としては, 時間判断システムの正答率が約69.4%, 精度が約81.6%の割合で人が行う判断結果と一致しており, 二段階未知語処理手法を用いた時間判断システムは有効なシステムであるといえる.
  • Yinghui Xu, Kyoji Umemura
    2005 年 12 巻 5 号 p. 131-155
    発行日: 2005/10/10
    公開日: 2011/03/01
    ジャーナル フリー
    A simpler distribution that fits empirical word distribution about as well as a negative binomial is the Katz K mixture.In the K mixture model, the basic assumption is that the conditional probabilities of repeats for a given word are determined by a constant decay factor that is independent of the number of occurrences which have taken place.However, the probabilities of the repeat occurrences are generally lower than the constant decay factor for the content-bearing words with few occurrences that have taken place.To solve this deficiency of the K mixture model, in-depth exploration of the characteristics of the conditional probabilities of repetitions, decay factors and their influences on modeling term distributions was conducted.Based on the results of this study, it appears that both ends of the distribution can be used to fit models.That is, not only can document frequencies be used when the instances of a word are few, but also tail probabilities (the accumulation of document frequencies). Both document frequencies for few instances of a word and tail probabilities for large instances are often relatively easy to estimate empirically.Therefore, we propose an effective approach for improving the K mixture model, where the decay factor is the combination of two possible decay factors interpolated by a function depending on the number of instances of a word in a document.Results show that the proposed model can generate a statistically significant better estimation of frequencies, especially the frequency estimation for a word with two instances in a document.In addition, it is shown that the advantages of this approach will become more evident in two cases, modeling the term distribution for the frequently used content-bearing word and modeling the term distribution for a corpus with a wide range of document length.
  • 岩越 守孝, 増田 英孝, 中川 裕志
    2005 年 12 巻 5 号 p. 157-183
    発行日: 2005/10/10
    公開日: 2011/03/01
    ジャーナル フリー
    本研究では, 数十文字程度の長さで携帯端末向けに配信されている新聞記事と数百文字程度の長さのweb新聞記事の両者を約3年に渡って収集した.こうして収集したコーパスから文末表現の縮約などの言い換え表現の抽出を機械的に行った.まず, webから収集した携帯向け新聞記事とweb新聞記事からなるコーパスに対して記事単位の対応付けを行い, 次に文単位の対応付けを行った.次に携帯向け記事文の文末の表現を形態素解析を用いて抽出し, その文に対応するweb新聞記事の文を集める.そしてweb新聞記事の文の文末から形態素ごとに言い換え先表現を抽出し, それに対して頻度等を用いた得点付け, および必要な名詞を欠落させてしまう不適切な言い換えの除去を行うことにより言い換え表現の抽出精度向上を図った.
  • SANDUIJAV ENKHBAYAR, 宇津呂 武仁, 佐藤 理史
    2005 年 12 巻 5 号 p. 185-205
    発行日: 2005/10/10
    公開日: 2011/06/07
    ジャーナル フリー
    本論文では, 現時点で利用可能なモンゴル語の言語資源, 特に, 名詞・動詞の語幹のリスト, および, 名詞・動詞に接続する語尾のリストから, モンゴル語の名詞句・動詞句を生成する手法を提案する.具体的には, 名詞・動詞の語幹に語尾が接続する際の音韻論的・形態論的制約を整備し, 語幹・語尾の語形変化の規則を作成する.評価実験の結果において, 100%近くの場合について, 生成された名詞句・動詞句の中に正しい句候補が含まれるという性能を達成した.さらに, 本論文では, この句生成に基づいて, モンゴル語の名詞句・動詞句の形態素解析を行なう手法を提案する.具体的には, まず, 既存のモンゴル語辞書から名詞語幹および動詞語幹を人手で抽出する.次に, これらの語幹に対して, モンゴル語名詞句・動詞句生成規則を適用することにより, 語幹・語尾の組から句を生成するための語形変化テーブルを作成する.そして, この語形変化テーブルを参照することにより, 与えられた名詞句・動詞句を形態素解析して語幹・語尾に分離する.評価実験の結果においては, 語形変化テーブルに登録されている句については, 形態素解析の結果得られる語幹・語尾の組合せの候補の中に, 正しい解析結果が必ず含まれることが確認できた.
  • 酒井 浩之, 増山 繁
    2005 年 12 巻 5 号 p. 207-231
    発行日: 2005/10/10
    公開日: 2011/03/01
    ジャーナル フリー
    略語とその略語に対する元の語 (原型語と定義) との対応関係を, コーパスから自動的に獲得する手法を提案する.本手法は, 同一の再現率においてより高い精度を達成できるように, 我々の既提案手法 (酒井, 増山2002) を改良したものである.このような知識は, 情報検索や文書要約などにおいて有用である.本手法は, まず, 略語候補とそれに対応した原型語の候補を, それらを構成している文字情報から獲得する.そして, 略語候補と原型語の候補の名詞問類似度を計算することで, 略語とその原型語との対応関係を取得する.例えば, 略語「原発」に対して, 原型語「原子力発電所」のような対応関係を取得できる.なお, 本手法はコーパスに出現する各名詞が略語か原型語であるかどうかの情報が与えられていることを前提としていない.評価の結果, 名詞間類似度の閾値を0.4に設定した場合, 精度73.4%の結果を得た.本手法と既提案手法とを比較した結果, 同一の再現率においてより高い精度を達成し, 既提案手法よりも有効な手法であることを確認した.
feedback
Top