自然言語処理
検索
OR
閲覧
検索
18 巻 , 2 号
選択された号の論文の7件中1~7を表示しています
    • |<
    • <
    • 1
    • >
    • >|
巻頭言
論文
  • 森 信介, 笹田 鉄郎, Neubig Graham
    18 巻 (2011) 2 号 p. 71-87
    公開日: 2011/09/28
    ジャーナル フリー
    確率的言語モデルは,仮名漢字変換や音声認識などに広く用いられている.パラメータは,コーパスの既存のツールによる処理結果から推定される.精度の高い読み推定ツールは存在しないため,結果として,言語モデルの単位を単語(と品詞の組)とし,仮名漢字モデルを比較的小さい読み付与済みコーパスから推定したり,単語の発音の確率を推定せずに一定値としている.これは,単語の読みの確率を文脈と独立であると仮定していることになり,この仮定に起因する精度低下がある.このような問題を解決するために,本論文では,まず,仮名漢字変換において,単語と読みの組を単位とする言語モデルを利用することを提案する.単語と読みの組を単位とする言語モデルのパラメータは,自動単語分割および自動読み推定の結果から推定される.この処理過程で発生する誤りの問題を回避するために,本論文では,確率的タグ付与を提案する.これらの提案を採用するか否かに応じて複数の仮名漢字変換器を構築し,テストコーパスにおける変換精度を比較した結果,単語と読みの組を言語モデルの単位とし,そのパラメータを確率的に単語分割し,さらに確率的読みを付与したコーパスから推定することで最も高い変換精度となることが分かった.したがって,本論文で提案する単語と読みの組を単位とする言語モデルと,確率的タグ付与コーパスの概念は有用であると結論できる.
    抄録全体を表示
  • 岡崎 直観, 辻井 潤一
    18 巻 (2011) 2 号 p. 89-117
    公開日: 2011/09/28
    ジャーナル フリー
    本論文では,コサイン係数,ダイス係数,ジャッカード係数,オーバーラップ係数に対し,簡潔かつ高速な類似文字列検索アルゴリズムを提案する.本論文では,文字列を任意の特徴(tri-gram など)の集合で表現し,類似文字列検索における必要十分条件及び必要条件を導出する.そして,類似文字列検索が転置リストにおける τ オーバーラップ問題として正確に解けることを示す.次に,τ オーバーラップ問題の効率的な解法として,CPMerge アルゴリズムを提案する.CPMerge は,検索クエリ文字列中のシグニチャと呼ばれる特徴と,解候補が枝刈りできる条件に着目し,τ オーバーラップ問題の解候補を絞り込む.さらに,CPMerge アルゴリズムの実装上の工夫について言及する.英語の人名,日本語の単語,生命医学分野の固有表現の 3 つの大規模文字列データセットを用い,類似文字列検索の性能を評価する.実験では,類似文字列検索の最近の手法である Locality Sensitive Hashing や DivideSkip 等と提案手法を比較し,提案手法が全てのデータセットにおいて,最も高速かつ正確に文字列を検索できることを実証する.また,提案手法による類似文字列検索が高速になる要因について,分析を行う.なお,提案手法をライブラリとして実装したものは,SimString としてオープンソースライセンスで公開している.
    抄録全体を表示
  • 木村 大翼, 田中 久美子
    18 巻 (2011) 2 号 p. 119-137
    公開日: 2011/09/28
    ジャーナル フリー
    本稿では,文書量に不変な定数を考える.このような定数には,言語や文書の複雑さや冗長性を定量化して捉える計算言語学上の意義がある.これらの指標は既存研究でさまざまなものが提案されてきたが,ほとんどの場合英語を中心とする小規模な文書を対象としてきた.本研究では英語以外のさまざまな言語や,大規模な文書も対象として扱い,主に先行研究において値が文長に依らないとされる 3 つの指標 K, Z, VM と本研究で新たに試みた指標である Hr の 5 つの指標に対し,値が一定となるかどうかの実験を行った.結果,値が言語の種類や文長に依らずに一定となる指標は KVM の 2 つの指標であった.なおかつこの 2 つの指標の値には自然言語とプログラミング言語の間で有意な差が見られ,言語の複雑さや冗長性をある観点で表した指標となっていると考えることができる.
    抄録全体を表示
  • 森 信介, 小田 裕樹
    18 巻 (2011) 2 号 p. 139-152
    公開日: 2011/09/28
    ジャーナル フリー
    本論文では,日本語の文の自動単語分割をある分野に適用する現実的な状況において,精度向上を図るための新しい方法を提案する.提案手法の最大の特徴は,複合語を参照することが可能な点である.複合語とは,内部の単語境界情報がなく,その両端も自動分割器の学習コーパスの作成に用いられた単語分割基準と必ずしも合致しない文字列である.このような複合語は,自然言語処理をある分野に適用する多くの場合に,利用可能な数少ない言語資源である.提案する自動単語分割器は,複合語に加えて単語や単語列を参照することも可能である.これにより,少ない人的コストでさらなる精度向上を図ることが可能である.
    実験では,これらの辞書を参照する自動単語分割システムを最大エントロピー法を用いて構築し,それぞれの辞書を参照する場合の自動単語分割の精度を比較した.実験の結果,本論文で提案する自動単語分割器は,複合語や単語列を参照することにより,対象分野においてより高い分割精度を実現することが確認された.
    抄録全体を表示
  • Dittaya Wanvarie, Hiroya Takamura, Manabu Okumura
    18 巻 (2011) 2 号 p. 153-173
    公開日: 2011/09/28
    ジャーナル フリー
    We propose an active learning framework for sequence labeling tasks. In each iteration, a set of subsequences are selected and manually labeled, while the other parts of sequences are left unannotated. The learning will stop automatically when the training data between consecutive iterations does not significantly change. We evaluate the proposed framework on chunking and named entity recognition data provided by CoNLL. Experimental results show that we succeed in obtaining the supervised F1 only with 6.98%, and 7.01% of tokens being annotated, respectively.
    抄録全体を表示
技術資料
  • 橋本 力, 黒橋 禎夫, 河原 大輔, 新里 圭司, 永田 昌明
    18 巻 (2011) 2 号 p. 175-201
    公開日: 2011/09/28
    ジャーナル フリー
    近年,ブログを対象とした情報アクセス・情報分析技術が盛んに研究されている.我々は,この種の研究の基礎データの提供を目的とし,249 記事,4,186 文からなる,解析済みブログコーパスを構築した.主な特長は次の 4 点である.i) 文境界のアノテーション.ii) 京大コーパス互換の,形態素,係り受け,格・省略・照応,固有表現のアノテーション.iii) 評価表現のアノテーション.iv) アノテーションを可視化した HTML ファイルの提供.記事は,大学生 81 名に「京都観光」「携帯電話」「スポーツ」「グルメ」のいずれかのテーマで執筆してもらうことで収集した.解析済みブログコーパスを構築する際,不明瞭な文境界,括弧表現,誤字,方言,顔文字等,多様な形態素への対応が課題になる.本稿では,本コーパスの全容とともに,いかに上記の課題に対応しつつコーパスを構築したかについて述べる.
    抄録全体を表示
    • |<
    • <
    • 1
    • >
    • >|
feedback
Top