自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
検索
OR
閲覧
検索
18 巻 , 3 号
選択された号の論文の5件中1~5を表示しています
    • |<
    • <
    • 1
    • >
    • >|
巻頭言
論文
  • Bernard Brosseau-Villeneuve, Noriko Kando, Jian-Yun Nie
    18 巻 (2011) 3 号 p. 217-245
    公開日: 2011/10/04
    ジャーナル フリー
    This paper presents a study on the use of word context features for Word Sense Disambiguation (WSD). State-of-the-art WSD systems achieve high accuracy by using resources such as dictionaries, taggers, lexical analyzers or topic modeling packages. However, these resources are either too heavy or don’t have sufficient coverage for large-scale tasks such as information retrieval. The use of local context for WSD is common, but the rationale behind the formulation of features is often based on trial and error. We therefore investigate the notion of relatedness of context words to the target word (the word to be disambiguated), and propose an unsupervised method for finding the optimal weights for context words based on their distance to the target word. The key idea behind the method is that the optimal weights should maximize the similarity of two context models constructed from different context samples of the same word. Our experimental results show that the strength of the relation between two words follows approximately a power law. The resulting context models are used in Naïve Bayes classifiers for word sense disambiguation. Our evaluation on Semeval WSD tasks in both English and Japanese show that our method can achieve state-of-the-art effectiveness even though it does not use external tools like most existing methods. The high efficiency makes it possible to use our method in large scale applications such as information retrieval.
    抄録全体を表示
  • 井上 裁都, 斎藤 博昭
    18 巻 (2011) 3 号 p. 247-271
    公開日: 2011/10/04
    ジャーナル フリー
    本稿では,パラメータ調整を簡略化したブートストラッピング的手法による日本語語義曖昧性解消を提案する.本稿で取り上げるブートストラッピングとは,ラベルなしデータを既存の教師あり学習手法を用いて分類し,その中で信頼度の高いデータをラベル付きデータに加え,この手順を反復することによって分類の性能を向上させる半教師あり学習手法である.従来のブートストラッピングによる語義曖昧性解消においては,プールサイズ,ラベル付きデータに追加するラベルなしデータの事例数,手順の反復回数といったパラメータをタスクに合わせ調整する必要があった.本稿にて提案する手法はヒューリスティックと教師あり学習(最大エントロピー法)によるラベルなしデータの二段階の分類,および学習に用いるラベルなしデータの条件を変えた複数の分類器のアンサンブルに基づく.これにより必要なパラメータ数は一つになり,かつパラメータの変化に対し頑健な語義曖昧性解消を実現する.SemEval-2 日本語タスクのデータセットを用いたベースラインの教師あり手法との比較実験の結果,パラメータの変化に対し最高で 1.8 ポイント,最低でも 1.56 ポイントの向上が見られ,提案手法の有効性を示せた.
    抄録全体を表示
  • 藤田 早苗, Kevin Duh, 藤野 昭典, 平 博順, 進藤 裕之
    18 巻 (2011) 3 号 p. 273-291
    公開日: 2011/10/04
    ジャーナル フリー
    本稿では,訓練データの自動拡張による語義曖昧性解消の精度向上方法について述べる.評価対象として,SemEval-2010 日本語語義曖昧性解消タスクを利用した.本稿では,まず,配布された訓練データのみを利用して学習した場合の結果を紹介する.更に,辞書の例文,配布データ以外のセンスバンク,ラベルなしコーパスなど,さまざまなコーパスを利用して,訓練データの自動拡張を試みた結果を紹介する.本稿では,訓練データの自動獲得により 79.5% の精度を得ることができた.更に,対象語の難易度に基づき,追加する訓練データの上限を制御したところ,最高 80.0% の精度を得ることができた.
    抄録全体を表示
  • Manabu Okumura, Kiyoaki Shirai, Kanako Komiya, Hikaru Yokono
    18 巻 (2011) 3 号 p. 293-307
    公開日: 2011/10/04
    ジャーナル フリー
    An overview of the SemEval-2 Japanese WSD task is presented. The new characteristics of our task are (1) the task will use the first balanced Japanese sense-tagged corpus, and (2) the task will take into account not only the instances that have a sense in the given set but also the instances that have a sense that cannot be found in the set. It is a lexical sample task, and word senses are defined according to a Japanese dictionary, the Iwanami Kokugo Jiten. This dictionary and a training corpus were distributed to participants. The number of target words was 50, with 22 nouns, 23 verbs, and 5 adjectives. Fifty instances of each target word were provided, consisting of a total of 2,500 instances for the evaluation. Nine systems from four organizations participated in the task.
    抄録全体を表示
    • |<
    • <
    • 1
    • >
    • >|
feedback
Top