自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
19 巻, 3 号
選択された号の論文の5件中1~5を表示しています
巻頭言
論文
  • 原島 純, 黒橋 禎夫
    2012 年 19 巻 3 号 p. 121-142
    発行日: 2012/09/30
    公開日: 2012/12/26
    ジャーナル フリー
    適合性フィードバックの手法の多くは,テキストに表層的に出現する単語の情報だけを用いて検索結果をリランキングしている.これに対し,本稿では,テキストに表層的に出現する単語の情報だけでなく,テキストに潜在的に現れうる単語の情報も利用する適合性フィードバックの手法を提案する.提案手法では,まず検索結果に対して Latent Dirichlet Allocation (LDA) を実行し,各文書に潜在する単語の分布を推定する.ユーザからフィードバックが得られたら,これに対しても LDA を実行し,フィードバックに潜在する単語の分布を推定する.そして,表層的な単語の分布と潜在的な単語の分布の両方を用いてフィードバックと検索結果中の各文書との類似度を算出し,これに基づいて検索結果をリランキングする.実験の結果,2 文書(合計 3,589 単語)から成るフィードバックが与えられたとき,提案手法が初期検索結果の Precision at 10 (P@10) を 27.6%改善することが示された.また,提案手法が,フィードバックが少ない状況でも,初期検索結果のランキング精度を改善する特性を持つことが示された(e.g., フィードバックに57単語しか含まれていなくても,P@10 で5.3%の改善が見られた).
  • 古宮 嘉那子, 奥村 学
    2012 年 19 巻 3 号 p. 143-166
    発行日: 2012/09/30
    公開日: 2012/12/26
    ジャーナル フリー
    ソースドメインのデータによって分類器を学習し,ターゲットドメインに適応することを領域適応といい,近年さまざまな手法が研究されている.しかし,語義曖昧性解消 (WSD: Word Sense Disambiguation) について領域適応を行った場合,最も効果的な領域適応手法は,ソースデータとターゲットデータの性質により異なる.本稿ではそれらの性質から,WSD の対象単語タイプ,ソースドメインとターゲットドメインの組み合わせに対して,最も効果的な領域適応手法を決定木学習を用いて自動的に選択する手法について述べるとともに,どのような性質が効果的な領域適応手法の決定に影響を与えたかについて考察する.
  • Daniel Flannery, Yusuke Miyao, Graham Neubig, Shinsuke Mori
    2012 年 19 巻 3 号 p. 167-191
    発行日: 2012/09/30
    公開日: 2012/12/26
    ジャーナル フリー
    We introduce a word-based dependency parser for Japanese that can be trained from partially annotated corpora, allowing for effective use of available linguistic resources and reduction of the costs of preparing new training data. This is especially important for domain adaptation in a real-world situation. We use a pointwise approach where each edge in the dependency tree for a sentence is estimated independently. Experiments on Japanese dependency parsing show that this approach allows for rapid training and achieves accuracy comparable to state-of-the-art dependency parsers trained on fully annotated data.
  • 竹中 要一, 若尾 岳志
    2012 年 19 巻 3 号 p. 193-212
    発行日: 2012/09/30
    公開日: 2012/12/26
    ジャーナル フリー
    地方自治体が制定する条例(規則も含め,以下例規という)は,章節/条項号という階層を有する,基本的に構造化された文書である.各自治体はそれぞれ別個に各議会等でこの例規を制定するため,複数の自治体が同一の事柄に関する規定(例えば「淫行処罰規定」など)を有している事が多い.この同一の事柄に関する規定の自治体間における異同を明らかにするための比較は,法学教育や法学研究,地方自治体法務,企業法務において実施されている.実務における法の比較では,対応する条項を対とし,それらの条文を左右または上下に並べた条文対応表の作成が主体となっている.これまで条文対応表は手作業で作成されてきたが,対象とする例規の条数や文字数が多い場合の表作成には 3 時間以上も必要としていた.そのため計算機による条文対応表の作成支援が強く求められているが,本件に関する研究はこれまでに行われていない.そこで我々の研究は,条文対応表を計算機で自動作成することによる条文対応表の作成支援を目的とする.この目的を達成するため,我々は条文対応表を,各条をノードとする二部グラフとしてモデル化し,このモデルに基づき条文対応表を自動作成するために有効な手法の検討を行った.二文書間の類似度を定義する多くの研究がこれまでに報告されている.これらの類似度比較手法より本研究ではベクトル空間モデル,最長共通部分列,及び文字列アライメント(編集コスト可変のレーベンシュタイン距離)に基づく 96 個の類似尺度の性能を比較した.評価には愛媛県の 11 の条例とそれに対応する香川県の 11 の条例を用い,法学者が作成した条文対応表に基づき正解率を求めた.その結果,名詞,副詞,形容詞,動詞,連体詞を対象としたベクトル空間モデルに基づく類似尺度の正解率が 85% と最も高かった.また,文字列アライメントに基づく類似尺度の正解率は最高で 81%,最長共通部分列は最高で 75% であった.本研究は条文対応表の作成支援であるため,推定された対応関係の信頼度,あるいは尤もらしさを提示する事が望ましい.そこで各比較手法で最も正解率の高かったパラメータを用いた合計 3 つの類似尺度に対して受信者操作特性曲線による評価を行ったが,曲線下面積がいずれも狭くて信頼度の尺度として適さない.そこで,推定された対応関係の類似度を二番目に高い類似度を持つ対応関係の値で割る事による正規化を行ったところ,最長共通部分列の曲線下面積が 0.80 と最も高く,ベクトル空間モデルの面積は 0.79 と良好であった.以上の評価結果より,条文対応表の作成支援では条見出しに対して最長共通部分文字列を,条文に対してベクトル空間モデルをそれぞれ適用した類似尺度を併用する事が,そして得られた条文対応関係の信頼度を評価する尺度としては二番目に高い類似度で割った値を用いるとよい事を明らかにした.
feedback
Top