自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
検索
OR
閲覧
検索
10 巻 , 1 号
選択された号の論文の7件中1~7を表示しています
    • |<
    • <
    • 1
    • >
    • >|
  • 荒木 健治
    10 巻 (2003) 1 号 p. 1-2
    公開日: 2011/03/01
    ジャーナル フリー
  • 野畑 周, 関根 聡, 辻井 潤一
    10 巻 (2003) 1 号 p. 3-26
    公開日: 2011/03/01
    ジャーナル フリー
    本論文では, 固有表現抽出の難易度をテストコーパスから評価する指標を提案する. 固有表現抽出システムの性能は客観的な指標によって評価される. しかし, システムの出力に対する評価だけでは, あるコーパスに対する固有表現抽出がどのように難しいのか, どのような情報がそのコーパスに対して固有表現抽出を行なう際に有効なのかを知ることは難しい. 本論文で提案する指標は, 個々のシステムの出力に依存することなく, 複数のコーパスについて統一的に適用できる. 指標の有効性は固有表現抽出システムの性能評価と比較することで検証される. さらに固有表現のクラス間における難易度の比較や, 有用な情報の違いについても議論する.
    抄録全体を表示
  • 中川 裕志, 湯本 紘彰, 森 辰則
    10 巻 (2003) 1 号 p. 27-45
    公開日: 2011/03/01
    ジャーナル フリー
    本論文では, 専門用語を専門分野コーパスから自動抽出する方法の提案と実験的評価を報告する. 本論文では名詞 (単名詞と複合名詞) を対象として専門用語抽出について検討する. 基本的アイデアは, 単名詞のバイグラムから得られる単名詞の統計量を利用するという点である. より具体的に言えば, ある単名詞が複合名詞を形成するために連接する名詞の頻度を用いる. この頻度を利用した数種類の複合名詞スコア付け法を提案する. NTCIR1 TMRECテストコレクションによって提案方法を実験的に評価した. この結果, スコアの上位の1, 400用語候補以内, ならびに, 12,000用語候補以上においては, 単名詞バイグラムの統計に基づく提案手法が優れていることがわかった.
    抄録全体を表示
  • 中島 浩之
    10 巻 (2003) 1 号 p. 47-61
    公開日: 2011/03/01
    ジャーナル フリー
    レレバンスフィードバックは検索者が与えた検索条件を利用してシステムが選択する文書 (サンプル文書) について, 検索者が必要文書と不要文書を選択し, フィードバックすることで, より正確な文書検索を実現する手法である. レレバンスフィードバックによる検索精度はフィードバックの対象となるサンプル文書の選択方法によって異なる. 通常のレレバンスフィードバックでは検索要求との関連が最も強いと推定される文書をサンプルとするレレバンスサンプリングが用いられるが, これに対して必要文書か不要文書かを分類するのが難しい文書をサンプルとするuncertaintyサンプリングが提案され, より高い検索精度が得られると報告されている. しかしいずれのサンプリング手法も複数の類似した文書をサンプルとして選択することがあるため, 検索精度が十分に向上しない恐れがあった. 本稿ではレレバンスサンプリングおよびuncertaintyサンプリングを改良する手段としてunfamiliarサンプリングを提案する. unfamiliarサンプリングは既存のサンプリング手法において, 新たにサンプルとして加える候補と既存のサンプルの文書問距離を評価し, 既存サンプルの最近傍であればサンプルから排除する. この処理により, 既存サンプルと類似した文書が排除されることにより検索精度が向上される. レレバンスフィードバックを用いた文書検索においては, 少数のサンプル文書で高い精度を得ることが重要になる. 本稿ではAdaBoostにおいてRocchioフィードバックを弱学習アルゴリズムとして用いる手法を提案し, これをRocchio-Boostと呼ぶ. NPLテストコレクションを用いた実験の結果, unfamiliarサンプリングによるサンプリング手法の改良とRocchio-Boostにより従来のRocchioフィードバックとレレバンスサンプリングに対して平均適合率を6%程度向上できることが分かった.
    抄録全体を表示
  • 山本 英子, 武田 善行, 梅村 恭司
    10 巻 (2003) 1 号 p. 63-80
    公開日: 2011/03/01
    ジャーナル フリー
    本論文では, 情報検索のための表記の揺れに寛容な類似尺度を提案する. 情報検索において, 検索対象となるデータがさまざまな人によって記述されたものであるため, 同じ事柄であっても表記が異なり, 入力した文字列で意図した情報を得ることができない場合がある. 人間ならば, 表記が多少異なっていて (表記の揺れがあって) も柔軟に対応し, 一致していると判断できるが, 計算機はこの柔軟性を備えていない. 表記の揺れに対応することができる尺度として編集距離が知られているが, 実際にこの尺度を単純に類似尺度に変換したものを用いて情報検索を行ってみたが, 性能がでなかった. そこで, 本論文では, この単純な類似尺度を情報検索に適した表記の揺れに寛容な類似尺度に拡張することを試み, その結果, この拡張によって検索性能が向上したことを示す. さらに, 提案する類似尺度を組み込んだ情報検索システムを構築し, 多くの情報検索システムに用いられている一般的な類似尺度と同等以上の検索性能を実現できたことを示す.
    抄録全体を表示
  • 平尾 努, 賀沢 秀人, 磯崎 秀樹, 前田 英作, 松本 裕治
    10 巻 (2003) 1 号 p. 81-108
    公開日: 2011/03/01
    ジャーナル フリー
    近年, インターネットや大容量の磁気デバイスの普及によって, 大量の電子化文書が氾濫している. こうした状況を背景として, 文書要約技術に対する期待が高まってきている. 特に, ある話題に関連する一連の文書集合をまとめて要約することが可能となれば, 人間の負担を大きく軽減することができる. そこで本稿では, 特定の話題に直接関連する文書集合を対象とし, 機械学習手法を用いることによって重要文を抽出する手法を提案する. 重要文抽出の手法としては近年, 自然言語処理研究の分野でも注目されている機械学習手法の1種であるSupport Vector Machineを用いた手法を提案する. 毎日新聞99年1年分より選んだ12話題の文書集合を用意し, それぞれの話題から総文数の10%, 30%, 50%の要約率に応じて人手により重要文を抽出した正解データセットを異なる被験者により3種作成した. このデータセットを用いて評価実験を行った結果, 提案手法の重要文抽出精度は, Lead手法, TF・IDF手法よりも高いことがわかった. また, 従来より複数文書要約に有効とされる冗長性の削減が, 文を単位とした場合には, 必ずしも有効でないこともわかった.
    抄録全体を表示
  • 吉田 辰巳, 大竹 清敬, 山本 和英
    10 巻 (2003) 1 号 p. 109-131
    公開日: 2011/03/01
    ジャーナル フリー
    現在入手可能な解析器と言語資源を用いて中国語解析を行った場合にどの程度の精度が得られるかを報告する. 解析器としては, サポートベクトルマシン (Support Vector Machine) を用いたYamChaを使用し, 中国語構文木コーパスとしては, 最も一般的なPenn Chinese Treebankを使用した. この両者を組み合わせて, 形態素解析と基本句同定解析 (base phrase chunking) の2種類の解析実験を行った. 形態素解析実験の際には, 一般公開されている統計的モデルに基づく形態素解析器MOZとの比較実験も行った. この結果, YamChaによる形態素解析精度は約88%でMOZよりも4%以上高いが, 実用的には計算時間に問題があることが分かった. また基本句同定解析精度は約93%であった.
    抄録全体を表示
    • |<
    • <
    • 1
    • >
    • >|
feedback
Top