自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
23 巻, 2 号
選択された号の論文の3件中1~3を表示しています
巻頭言
論文
  • 西野 正彬, 鈴木 潤, 梅谷 俊治, 平尾 努, 永田 昌明
    2016 年 23 巻 2 号 p. 175-194
    発行日: 2016/03/14
    公開日: 2016/06/14
    ジャーナル フリー
    2 つの系列が与えられたときに,系列の要素間での対応関係を求めることを系列アラインメントとよぶ.系列アラインメントは,自然言語処理分野においても文書対から対訳関係にある文のペアを獲得する対訳文アラインメント等に広く利用される.既存の系列アラインメント法は,アラインメントの単調性を仮定する方法か,もしくは連続性を考慮せずに非単調なアラインメントを求める方法かのいずれかであった.しかし,法令文書等の対訳文書に対する対訳文アラインメントにおいては,単調性を仮定せず,かつ対応付けの連続性を考慮できる手法が望ましい.本論文では,ある大きさの要素のまとまりを単位として系列の順序が大きく変動する場合にアラインメントを求めるための系列アラインメント法を示す.手法のポイントは,系列アラインメントを求める問題を組合せ最適化問題の一種である集合分割問題として定式化して解くことで,要素のまとまりの発見と対応付けとを同時に行えるようにした点にある.さらに,大規模な整数線形計画問題を解く際に用いられる技法である列生成法を用いることで,高速な求解が可能であることも同時に示す.
  • 大山 浩美, 小町 守, 松本 裕治
    2016 年 23 巻 2 号 p. 195-225
    発行日: 2016/03/14
    公開日: 2016/06/14
    ジャーナル フリー
    近年,様々な種類の言語学習者コーパスが収集され,言語教育の調査研究に利用されている.ウェブを利用した言語学習アプリケーションも登場し,膨大な量のコーパスを収集することも可能になってきている.学習者が生み出した文には正用だけでなく誤用も含まれており,それらの大規模な誤用文を言語学や教育などの研究に生かしたいと考えている.日本語教育の現場では,学習者の書いた作文を誤用タイプ別にし,フィードバックに生かしたい需要があるが,大規模な言語学習者コーパスを人手で分類するのは困難であると考えられる.そのような理由から,本研究は機械学習を用いて日本語学習者の誤用文を誤用タイプ別に分類するというタスクに取り組む.本研究は,以下の手順で実験を行った.まず,誤用タイプが付与されていない既存の日本語学習者コーパスに対し,誤用タイプ分類表を設計し,誤用タイプのタグのアノテーションを行った.次に,誤用タイプ分類表の階層構造を利用して自動分類を行う階層的分類モデルを実装した.その結果,誤用タイプの階層構造を利用せず直接多クラス分類を行うベースライン実験より 13 ポイント高い分類性能を得た.また,誤用タイプ分類のための素性を検討した.機械学習のための素性は,単語の周辺情報,依存構造を利用した場合をベースライン素性として利用した.言語学習者コーパスの特徴として,誤用だけではなく正用も用いることができるため,拡張素性として正用文と誤用文の編集距離,ウェブ上の大規模コーパスから算出した正用箇所と誤用箇所の置換確率を用いた.分類精度が向上した誤用タイプは素性によって異なるが,全ての素性を使用した場合は分類精度がベースラインより 6 ポイント向上した.
feedback
Top