自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
17 巻, 5 号
選択された号の論文の4件中1~4を表示しています
巻頭言
論文
  • 宮崎 林太郎, 森 辰則
    2010 年 17 巻 5 号 p. 5_3-5_50
    発行日: 2010年
    公開日: 2011/04/15
    ジャーナル フリー
    本稿では評判情報関連タスクにおいて必要不可欠と考えられる,評判情報コーパスを人手により効率良く作成する手法について検討し,作成されたコーパスについて基礎的な分析を行う.まず,注釈付けに用いる評判情報モデルとして,項目―属性―属性値―評価の4つ組からなる2層構造モデルを提案する.次に,複数注釈者の人手によるコーパス作成について検討する.その際に,注釈者間の注釈揺れが問題となる.予備実験の結果,注釈者が他の注釈者と相談をせずに独自に注釈付けの判断を行った場合には注釈付けの一致率が十分でないことがわかった.そこで,複数の注釈者間で判断に関する情報を共有するための方法として,注釈事例参照の利用を提案し,注釈事例参照を組み込んだ注釈付け支援ツールの試作を行った.これにより,注釈付けの判断に関する情報を複数の注釈者間で緩やかに共有することができる.評価実験によれば,注釈事例の参照機能が注釈揺れ削減に効果があることがわかった.さらに,上記の手法を用いた評判情報コーパス作成について報告する.また,注釈事例参照の有効性を確認した後,1万文のレビュー文書に対して10名の注釈者が注釈付けを行い,評判情報コーパスを作成した.そして,作成したコーパスについて,評判情報の各構成要素の統計的調査を行った結果,提案した2層構造モデルを用いて評判情報を捉えることが有効であることがわかった.
  • 首藤 公昭, 田辺 利文
    2010 年 17 巻 5 号 p. 5_51-5_74
    発行日: 2010年
    公開日: 2011/04/15
    ジャーナル フリー
    日常の自然言語文には構成性 (compositionality) に基づいて意味を扱う事が難しいイディオムやイディオム的な複数単語からなる表現,また,語の強い結合によって成り立つ決まり文句や決まり文句的表現が数多く使われているが,現在の自然言語処理 (Natural Language Processing: NLP) ではこれらに十分な対応が出来ていない.近年,この種の特異性を持つ表現を複単語表現 (Multi-Word Expression: MWE) と名付け,NLP の立場から英語の MWE 全体を俯瞰・考察した論文 (Sag et al. 2002) が端緒となって,その重要性が広く認識されるようになった.しかし,その後の活発な研究にも拘わらず,包括的で信頼性のある言語資源を構築するには至っていない.筆者らは,現代日本語を対象とした概念語相当 MWE 辞書の構築を古くから進めてきており,本論文ではその初版の概要を報告する.本辞書,JDMWE (Japanese Dictionary of Multi-Word Expressions) は主として人の内省に基づき,以下を目標に編纂されている.
    1. 典型的なイディオムや決まり文句に限定せず,いわば準イディオム,準決まり文句的表現の候補も採録すること
    2. 特定の構文構造に限定せず,広範囲かつ体系的に収録すること
    3. 異表記,派生形を網羅すること
    4. 構文構造情報を与え,表現の構文的柔軟性にも対処すること
     現在の収録表現数は基本形で約 104,000 件であり,記載した異表記,派生形情報を使えば 750,000 表現程度をカバーする.本辞書は各 MWE に依存(木)構造を与えた一種のツリーバンクと見なすことができる.
技術資料
  • 坂本 真樹
    2010 年 17 巻 5 号 p. 5_75-5_98
    発行日: 2010年
    公開日: 2011/04/15
    ジャーナル フリー
    現在共有されている日本人の子供の書き言葉コーパスは非常に少ないが,子供の書き言葉コーパスは,日本語の使用実態の年齢別推移の分析や,子供の言葉に特徴的に現れる言語形式の分析,国語教育・日本語教育への活用など日本語研究での利用はもちろんのこと,認知発達,社会学など,さまざまな分野での応用の可能性がある.そこで本研究では,全国 4,950 校の小学校の Web サイトを調査し,公開されている作文について,各テキストが子供の書いたテキストであることや学年などの情報を確認の上,作文データの収集を行った.収集したテキスト総数は 10,006,語数は 1,234,961 である.本研究では,大人よりも子供の言語使用において豊富で多様な使用が観察されると予想されるオノマトペに着目し,その学年別の使用実態の推移について調査した.その結果,オノマトペの出現率は学年が上がるにつれ減少していくことが確認できた.さらに,社会学的応用例として,子供と父母との関係性について調査し,父母とのやりとりとそれに対する子供の反応との関係性が,母親の場合の方が強いことを示し,本コーパスのさまざまな応用の可能性を示した.
feedback
Top