Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
19 巻, 1 号
  • 山田 一郎, 橋本 力, 呉 鍾勲, 鳥澤 健太郎, 黒田 航, Stijn De Saeger, 土田 正明, 風間 淳一
    2012 年 19 巻 1 号 p. 3-23
    発行日: 2012/03/30
    公開日: 2012/06/29
    ジャーナル フリー
    単語の上位下位関係を自動獲得する研究はこれまで活発に行われてきたが,上位概念の詳細さに関する議論はほとんどなされてこなかった.自動獲得された上位下位関係の中には,例えば「作品→七人の侍」や「作品→1Q84」のように,より適切と考えられる上位概念「映画」や「小説」と比べて広範囲な概念をカバーする上位概念(「作品」)が含まれることがある.このような上位概念を検索や質問応答などのタスクにおいて利用すると,より詳細な上位概念を利用する手法と比較して有用でないことが多い.そこで本論文では,自動獲得した上位下位関係を,Wikipedia の情報を利用することでより詳細にする手法を提案する.例えば「作品→七人の侍」から,「作品→映画監督の作品→黒澤明の作品→七人の侍」のように,単語「七人の侍」の上位概念(かつ,単語「作品」の下位概念)として,2種類の中間ノード「黒澤明の作品」,「映画監督の作品」を生成することにより,元の上位下位関係を詳細化する.自動獲得した 1,925,676 ペアの上位下位関係を対象とした実験では,最も詳細な上位概念となる一つ目の中間ノード(「黒澤明の作品」など)を重み付き適合率 85.3%で 2,719,441 個,二つ目の中間ノード(「映画監督の作品」など)を重み付き適合率 78.6% で 6,347,472 個生成し,高精度に上位下位関係を詳細化できることを確認した.さらに,生成した上位下位関係が「対象–属性–属性値」として解釈できることについても報告する.
  • Minh Hai Nguyen, Kiyoaki Shirai
    2012 年 19 巻 1 号 p. 25-50
    発行日: 2012/03/30
    公開日: 2012/06/29
    ジャーナル フリー
    It is said that Vietnamese is a language with highly ambiguous words. However, there has been no published Word Sense Disambiguation (WSD hereafter) research on this language. This current research is the first attempt to study Vietnamese WSD. Especially, we would like to explore the effective features for training WSD classifiers and verify the applicability of the ‘pseudoword’ technique to both investigating effectiveness of features and training WSD classifiers. Three tasks have been conducted, using two corpora which were built manually based on Vietnamese Treebank and automatically by applying pseudowords technique. Experiment results showed that Bag-Of-Word feature performs well for all three categories of words (verbs, nouns, and adjectives). However, its combination with POS, Collocation or Syntactic features can not significantly improve the performance of WSD classifiers. Moreover, the experiment results confirmed that pseudoword is a suitable technique to explore the effectiveness of features in disambiguation of Vietnamese verbs and adjectives. Furthermore, we empirically evaluated the applicability of the pseudoword technique as an unsupervised learning method for real Vietnamese WSD.