自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
論文
日本語の複単語表現辞書:JDMWE
首藤 公昭田辺 利文
著者情報
ジャーナル フリー

2010 年 17 巻 5 号 p. 5_51-5_74

詳細
抄録

日常の自然言語文には構成性 (compositionality) に基づいて意味を扱う事が難しいイディオムやイディオム的な複数単語からなる表現,また,語の強い結合によって成り立つ決まり文句や決まり文句的表現が数多く使われているが,現在の自然言語処理 (Natural Language Processing: NLP) ではこれらに十分な対応が出来ていない.近年,この種の特異性を持つ表現を複単語表現 (Multi-Word Expression: MWE) と名付け,NLP の立場から英語の MWE 全体を俯瞰・考察した論文 (Sag et al. 2002) が端緒となって,その重要性が広く認識されるようになった.しかし,その後の活発な研究にも拘わらず,包括的で信頼性のある言語資源を構築するには至っていない.筆者らは,現代日本語を対象とした概念語相当 MWE 辞書の構築を古くから進めてきており,本論文ではその初版の概要を報告する.本辞書,JDMWE (Japanese Dictionary of Multi-Word Expressions) は主として人の内省に基づき,以下を目標に編纂されている.
1. 典型的なイディオムや決まり文句に限定せず,いわば準イディオム,準決まり文句的表現の候補も採録すること
2. 特定の構文構造に限定せず,広範囲かつ体系的に収録すること
3. 異表記,派生形を網羅すること
4. 構文構造情報を与え,表現の構文的柔軟性にも対処すること
 現在の収録表現数は基本形で約 104,000 件であり,記載した異表記,派生形情報を使えば 750,000 表現程度をカバーする.本辞書は各 MWE に依存(木)構造を与えた一種のツリーバンクと見なすことができる.

著者関連情報
© 2010 言語処理学会
前の記事 次の記事
feedback
Top