自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
14 巻, 4 号
選択された号の論文の6件中1~6を表示しています
  • 永瀬 治郎
    2007 年 14 巻 4 号 p. 1-2
    発行日: 2007/07/10
    公開日: 2011/03/01
    ジャーナル フリー
  • 橋本 泰一, 吉田 恭介, 野口 正樹, 徳永 健伸, 田中 穂積
    2007 年 14 巻 4 号 p. 3-22
    発行日: 2007/07/10
    公開日: 2011/03/01
    ジャーナル フリー
    本論文では, 構文木をクエリとして与え, 構文木付きコーパスからクエリと同じ構文木を部分木として含む文を検索する手法を提案する.構文木付きコーパスは, 関係データベースに格納する.このような構造検索の過去の研究では, クエリの節点数が増加すると, 検索時間が大幅に増加する問題があった.本論文で提案する手法は, 節点数が多いクエリを部分木に分割し, 漸進的に検索することで検索を効率化する.クエリの分割の単位やその検索順序は, 検索対象となるコーパス中の規則の出現頻度をもとに自動的に決定する.本手法の有効性を確認するために7種類のコーパスを用いて評価実験を行ったところ, 4種類のコーパスで分割の有効性が確認できた.
  • 下畑 さより, 井佐原 均
    2007 年 14 巻 4 号 p. 23-41
    発行日: 2007/07/10
    公開日: 2011/03/01
    ジャーナル フリー
    本論文では, 日英特許コーパスを用いて専門用語の対訳辞書を作成する方法について述べる.提案手法は, 言語単位としての妥当性と分野による出現の偏りを数値化することで, コーパス中の単語 (列) を専門用語として抽出し, 和英辞書などの既知の対訳用語セット (seed wordリスト) を介して, コーパスにおける各専門用語の共起パターンを計測し, その類似性が高い用語ペアを対訳として対応付ける.この時, 対象となるコーパス間で文脈が類似している対訳のみをseed wordに利用する点が特徴である.本手法を日本語特許抄録とその英訳に適用したところ, 専門用語の抽出精度は日本語で90%, 英語で93%となった.また, 訳語対応付けでは, 各専門用語の対訳として1位に対応付けられた対訳候補の正解率が53% (日英) と66% (英日), 10位以内に対応付けられた対訳候補の正解率が83% (日英) と90% (英日) と, 従来研究と比べて高い精度を得ることができた.本論文ではさらに, PAJの日本語抄録と米国特許抄録を用いた実験を行い, コーパスの違いによる実験結果の違いについても考察する.
  • 梅村 祥之, 増山 繁
    2007 年 14 巻 4 号 p. 43-65
    発行日: 2007/07/10
    公開日: 2011/03/01
    ジャーナル フリー
    文章推敲に関する従来研究では, 主に, タイプミス, 構文構造の複雑さ, 表記の揺れを指摘する手法など, 表記レベルと統語レベルの手法に重点がおかれていた.それに対して, 本研究では, 読みやすさを向上させるために, 説明が不足していて論理展開が読み取りにくいと感じられる箇所を検出する技術を扱う.文章としては情報を正確に伝達するための仕事文 (仕事用の文) を対象として, 文単位での情報不足を推敲対象とする.この課題は意味処理に踏み込むため, これまで十分研究が行われてこなかった.なお, 語用論の「協調の原理」によれば, 量の格率と呼ばれる情報不足と情報過多に関する遵守すべき原則がある.このうち情報過多を扱わない理由は, 情報過多が, 冗長な情報を無視するのに基づく読者の負担を増やすだけであるのに対し, 情報不足は理解困難という深刻な事態を招き, 重要性が高いためである.実験準備から解析に至る流れは, 次の通りである.まず, 原文から連体修飾部を欠落させた課題文を生成し, 次に, 被験者にその箇所に情報不足を感じるかどうかを判定させ正解判定データを作成した.その後, 正解判定データの一部から機械学習を行い, 残りのデータを機械判定させる.機械判定に用いる主な素性として, 修飾部の欠落箇所におけるつながりの滑らかさに関係した語の連鎖に関する統計量を取り上げた.約1,000箇所の判定課題に対し, SVMによる機械学習アルゴリズムを用いた自動判定により正解率を測定した結果, 機械判定の正解率として, ベースライン50%, 上限 (人間の評価のバラツキから上限を定義) 76%に対し, 10-fold crossvalidationで67%の正解率を得た.
  • 河原 大輔, 黒橋 禎夫
    2007 年 14 巻 4 号 p. 67-81
    発行日: 2007/07/10
    公開日: 2011/03/01
    ジャーナル フリー
    本稿では, 格フレームに基づき構文・格解析を統合的に行う確率モデルを提案する.格フレームは, ウェブテキスト約5億文から自動的に構築した大規模なものを用いる.確率モデルは, 述語項構造を基本単位とし, それを生成する確率であり, 格フレームによる語彙的な選好を利用するものである.ウェブのテキストを用いて実験を行い, 特に述語項構造に関連する係り受けの精度が向上することを確認した.また, 語彙的選好がどの程度用いられているかを調査したところ, 60.7%という高い割合で使われていることがわかり, カバレージの高さを確認することができた.
  • Nobuo Sato, Yasunari Obuchi
    2007 年 14 巻 4 号 p. 83-96
    発行日: 2007/07/10
    公開日: 2011/03/01
    ジャーナル フリー
    In this paper, we propose a new approach to emotion recognition. Prosodic features are currently used in most emotion recognition algorithms. However, emotion recognition algorithms using prosodic features are not sufficiently accurate. Therefore, we focused on the phonetic features of speech for emotion recognition. In particular, we describe the effectiveness of Mel-frequency Cepstral Coefficients (MFCCs) as the feature for emotion recognition. We focus on the precise classification of MFCC feature vectors, rather than their dynamic nature over an utterance. To realize such an approach, the proposed algorithm employs multi-template emotion classification of the analysis frames. Experimental evaluations show that the proposed algorithm produces 66.4% recognition accuracy in speaker-independent emotion recognition experiments for four specific emotions. This recognition accuracy is higher than the accuracy obtained by the conventional prosody-based and MFCC-based emotion recognition algorithms, which confirms the potential of the proposed algorithm.
feedback
Top