自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
17 巻, 1 号
選択された号の論文の14件中1~14を表示しています
巻頭言
追悼
論文
  • 吉見 毅彦, 小谷 克則, 九津見 毅, 佐田 いち子, 井佐原 均
    2010 年 17 巻 1 号 p. 1_7-1_28
    発行日: 2010年
    公開日: 2011/06/30
    ジャーナル フリー
    本稿では,人間による翻訳(人間訳)と機械翻訳システムによる翻訳(システム訳)を訓練事例とした機械学習によって構築した識別器を用いてシステム訳の流暢さを自動評価する手法について述べる.提案手法では,人間訳とシステム訳の流暢さの違いを表わす手がかりとして,逐語訳(原文と翻訳文での単語同士の対応)に着目した.人間訳とシステム訳における逐語訳の違いを捉えるために,原文と人間訳との間,および原文とシステム訳との間で単語対応付けを行ない,その結果を機械学習のための素性とする.提案手法は,識別器を構築する際に対訳コーパスを必要とするが,評価対象のシステム訳の流暢さを評価する際には参照訳を必要としない.さらに,大量の訓練事例に人手で流暢さの評価値を付与する必要もない.検証実験の結果,提案手法によってシステムレベルでの自動評価が可能であることが示唆された.また,サポートベクターマシンによる機械学習で各素性に付与される重みに基づいてシステム訳に特徴的な素性を特定できるため,このような素性を含む文を観察することによって文レベルでのシステム訳の特徴分析を行なうこともできる.
  • 佐野 智久, 延澤 志保, 岡本 紘幸, 鈴木 宏哉, 松原 正樹, 斎藤 博昭
    2010 年 17 巻 1 号 p. 1_29-1_54
    発行日: 2010年
    公開日: 2011/06/30
    ジャーナル フリー
    地名等の固有名詞は自然言語処理における未知語処理問題の要因の一つであり,これを自動的に認識する手法が盛んに研究されている.本稿では,地名の所属国を自動的に推定することで,未知語としてノイズの原因となる可能性のある地名語句に情報を与えることを目的とする.固有名詞である地名の認識では地名辞書が用いられることが多いが,辞書ベースの手法では,辞書未登録語の問題が避けられない.不特定多数の外国の地名も含めた所属国の推定の実現のため,本稿では,地名辞書や文脈情報を全く使用せず,地名の表層情報のみを利用して,地名の所属国を自動的に判別する手法を提案する.地名については,言語的な類似性や地理的要因によって所属国の判別が困難な場合がある.本稿ではこの点に着目し,所属可能性の低い国の除去による候補の絞込み処理と,所属可能性の高い候補の選択処理との組合せによって,再現率を高く保ったまま適合率の向上を実現した.
  • 村脇 有吾, 黒橋 禎夫
    2010 年 17 巻 1 号 p. 1_55-1_75
    発行日: 2010年
    公開日: 2011/06/30
    ジャーナル フリー
    日本語の形態素解析における未知語問題を解決するために,オンライン未知語獲得という枠組みと,その具体的な実現手法を提案する.オンライン未知語獲得では,形態素解析器と協調して動作する未知語獲得器が,文が解析されるたびに未知語を検出し,その可能な解釈の候補を列挙し,最適な候補を選択する.このうち,列挙は日本語の持つ形態論的制約を利用し,選択は蓄積した複数用例の比較により行う.十分な用例の比較により曖昧性が解消されると,解析器の辞書を直接更新し,獲得された未知語が以降の解析に反映される.実験により,比較的少数の用例から高精度に未知語が獲得され,その結果形態素解析の精度が改善することが示された.
  • 尾上 徹, 平田 勝大, 岡部 正幸, 梅村 恭司
    2010 年 17 巻 1 号 p. 1_77-1_97
    発行日: 2010年
    公開日: 2011/06/30
    ジャーナル フリー
    テキスト分類における特徴抽出とは,分類結果を改善するためにテキストの特徴たる単語または文字列を取捨選択する手続きである.ドキュメントセットのすべての部分文字列の数は,通常は非常に膨大であるため,部分文字列を特徴として使用するとき,この操作は重要な役割を果たす.
    本研究では,部分文字列の特徴抽出の方法に焦点を当て,反復度と呼ばれる統計量を使って特徴抽出する方法を提案する.反復度は,高確率でドキュメントに二度以上出現する文字列は文書のキーワードであるはずだという仮定に基づく統計量であり,この反復度の性質は,テキスト分類にも有効であると考える.実験では,Zhang ら (Zhang et al. 2006) によって提案された,条件付確率を用いることで分布が類似した文字列をまとめるという手法(以下,条件付確率の方法と記す)と我々の提案する手法の比較を行う.結果の評価には適合率と再現率に基づくF値を用いることとした.ニュース記事とスパムメールの分類実験の結果,我々の提案する反復度を用いた特徴抽出法を用いると,条件付確率の方法を用いるのに比べて,ニュース記事の分類では分類結果を平均 79.65% から平均 83.39% に改善し,スパムメールの分類では分類結果を平均 90.23% から平均 93.15% に改善した.提案手法である反復度を用いる特徴抽出法は Zhang らの提案する条件付確率を用いる特徴抽出法に比べて,ニュース分類記事の分類では平均 3.74%,スパムメールの分類では平均 2.93% だけ結果を改善しており,その両方の実験において結果に有意差があることを確認した.
    また,反復度を用いる特徴抽出方法を用いると,単語を特徴集合とする方法を用いる場合と比べて,ニュース記事の分類では分類の結果を平均 83.88% から平均 83.39% と平均 0.49% 低下させることとなったものの,スパムメールの分類では分類の結果を平均 92.11% から平均 93.15% と平均 1.04% 改善した.ニュース記事の分類においては反復度を用いる特徴抽出方法と単語を特徴集合とする方法に有意差は本実験では認められず,スパムメールの分類の結果においては有意差があることを確認した.
    この結果が得られた要因について考察すると,条件付確率の方法を用いたほうは一見しただけでは何の部分文字列かわからないほど短い文字列を抽出する傾向にあることが分かった.これは不特定多数の文字列の一部として出現しやすいことを意味しており,文書の特徴になりえないような文字列がこれを含んでいたとき,分類結果がその文字列の影響を受けることを意味する.それに対して反復度で抽出した部分文字列は短い文字列もあるものの,長い文字列や間に空白が挟まった単語をつなぐ部分文字列も捉えているため,特定のものをさす文字列の部分文字列であるといえる.このような何を指しているのかわかりやすいある程度長い部分文字列と,間に空白を挟んだ単語と単語を結ぶような形の部分文字列が分類結果を改善していると考えられる.
  • 中澤 敏明, 黒橋 禎夫
    2010 年 17 巻 1 号 p. 1_99-1_120
    発行日: 2010年
    公開日: 2011/06/30
    ジャーナル フリー
    語順や言語構造の大きく異なる言語対間の対訳文をアライメントする際に最も重要なことは,言語の構造情報を利用することと,一対多もしくは多対多の対応が生成できることである.本論文では両言語文の依存構造木上での単語や句の依存関係をモデル化した新しい句アライメント手法を提案する.依存関係モデルは木構造上での reordering モデルということができ,非局所的な語順変化を正確に扱うことができる.これは文を単語列として扱う既存の単語アライメント手法にはない利点である.また提案モデルはヒューリスティックなルールを一切用いずに,句となるべき単位の推定を自動的に行うことができる.アライメント実験では,既存の単語アライメント手法と比較して,提案手法にではアライメントの精度を F 値で 8.5 ポイント向上させることができた.
  • 阿部 修也, 乾 健太郎, 松本 裕治
    2010 年 17 巻 1 号 p. 1_121-1_139
    発行日: 2010年
    公開日: 2011/06/30
    ジャーナル フリー
    行為―効果関係,行為―手段関係のような事態間の関係を大規模コーパスから自動的に獲得する.共起パターンを利用する手法では,事態を表現する述語間で共有される項を認識することが難しいため,述語間で共有される名詞(アンカー)を用いて共有項を獲得し,共起パターンを用いて獲得した所与の関係を満たす述語対と共有項を組み合わせることで,共有項と共に事態間関係を獲得する.このとき 2 種類の異なるアンカーを用いることで,精度を保ったまま再現率を向上できることを確認した.
  • 小町 守, 飯田 龍, 乾 健太郎, 松本 裕治
    2010 年 17 巻 1 号 p. 1_141-1_159
    発行日: 2010年
    公開日: 2011/06/30
    ジャーナル フリー
    形態素解析や構文解析など自然言語処理の要素技術は成熟しつつあり,意味解析・談話解析といった,より高次な言語処理の研究が盛んになってきた.特に文の意味理解のためには「誰が」「何を」「誰に」といった要素(項)を同定することが重要である.動詞や形容詞を対象にした項構造解析のことを述語項構造解析と呼ぶが,文中の事態を表す表現は動詞や形容詞の他にも名詞も存在することが知られている.そこで,我々は日本語の名詞を対象とした項構造解析タスクを取り上げ,機械学習を用いた自動的な解析手法を提案する.日本語の事態性名詞には事態を指すか否か曖昧性のある名詞があるため,まず事態性の有無を判定する事態性判別タスクと項同定タスクの 2 つに分解し,それぞれ大規模なコーパスから抽出した語彙統語パターンを用いた手法と述語・事態性名詞間の項の共有現象に着目した手法を提案する.
  • 横野 光, 奥村 学
    2010 年 17 巻 1 号 p. 1_161-1_182
    発行日: 2010年
    公開日: 2011/06/30
    ジャーナル フリー
    本論文ではentity gridを用いたテキストの局所的な一貫性モデルに対する改善について述べる.entity grid ベースの既存モデルに対して,テキスト結束性に寄与する要素である接続関係,参照表現,語彙的結束性,また,より詳細な構文役割の分類を組み込んだモデルを提案し,その性能を検証する.語彙的結束性に関しては,語彙的連鎖を用いたクラスタリングを行う.テキスト中の文の並びに対して,より一貫性のある文の順番の判定と,人手による評価に基づいた要約テキストの比較の 2 種類の実験を行い,その結果,本論文で提案する要素が entity grid モデルの性能の改善に寄与することが明らかになった.
  • Atsushi Fujita, Satoshi Sato
    2010 年 17 巻 1 号 p. 1_183-1_219
    発行日: 2010年
    公開日: 2011/06/30
    ジャーナル フリー
    The most critical issue in generating and recognizing paraphrases is developing a wide-coverage paraphrase knowledge base. To attain the coverage of paraphrases that should not necessarily be represented at surface level, researchers have attempted to represent them with general transformation patterns. However, this approach does not prevent spurious paraphrases because there is no practical method to assess whether or not each instance of those patterns properly represents a pair of paraphrases. This paper argues on the measurement of the appropriateness of such automatically generated paraphrases, particularly targeting at morpho-syntactic paraphrases of predicate phrases. We first specify the criteria that a pair of expressions must satisfy to be regarded as paraphrases. On the basis of the criteria, we then examine several measures for quantifying the appropriateness of a given pair of expressions as paraphrases of each other. In addition to existing measures, a probabilistic model consisting of two distinct components is examined. The first component of the probabilistic model is a structured N-gram language model that quantifies the grammaticality of automatically generated expressions. The second component approximates the semantic equivalence and substitutability of the given pair of expressions on the basis of the distributional hypothesis. Through an empirical experiment, we found (i) the effectiveness of contextual similarity in combination with the constituent similarity of morpho-syntactic paraphrases and (ii) the versatility of the Web for representing the characteristics of predicate phrases.
  • Naoya Inoue, Ryu Iida, Kentaro Inui, Yuji Matsumoto
    2010 年 17 巻 1 号 p. 1_221-1_246
    発行日: 2010年
    公開日: 2011/06/30
    ジャーナル フリー
    An anaphoric relation can be either direct or indirect. In some cases, the antecedent being referred to lies outside of the discourse its anaphor belongs to. Therefore, an anaphora resolution model needs to consider the following two decisions in parallel: antecedent selection–selecting the antecedent itself, and anaphora type classification–classifying an anaphor into direct anaphora, indirect anaphora or exophora. However, there are non-trivial issues for taking these decisions into account in anaphora resolution models since the anaphora type classification has received little attention in the literature. In this paper, we address three non-trivial issues: (i) how the antecedent selection model should be designed, (ii) what information helps with anaphora type classification, (iii) how the antecedent selection and anaphora type classification should be carried out, taking Japanese as our target language. Our findings are: first, an antecedent selection model should be trained separately for each anaphora type using the information useful for identifying its antecedent. Second, the best candidate antecedent selected by an antecedent selection model provides contextual information useful for anaphora type classification. Finally, the antecedent selection should be carried out before anaphora type classification.
技術資料
feedback
Top