自然言語処理

巻頭言

コーパスアノテーション―新しい可能性と共有化にむけての試み―

浅原正幸, 前川喜久雄

2014 年 21 巻 2 号 p. 95-98
発行日: 2014/04/18
公開日: 2014/07/17

DOIhttps://doi.org/10.5715/jnlp.21.95

ジャーナルフリー

PDF形式でダウンロード (160K)

論文

既存のツールと結合した話し言葉コーパス利用環境

伝康晴, 小磯花絵

2014 年 21 巻 2 号 p. 99-123
発行日: 2014/04/18
公開日: 2014/07/17

DOIhttps://doi.org/10.5715/jnlp.21.99

ジャーナルフリー

抄録を表示する抄録を非表示にする

近年，コーパスアノテーションは多様化し，多層アノテーションを統合利用する仕組みが欠かせない．とくに話し言葉コーパスでは，言語・非言語に関する 10 種類以上もの単位とそれらの相互関係を統合し，複数の単位を組み合わせた複雑な検索を可能にする必要がある．本研究では，このような要請に応えるため，(1) マルチモーダル・マルチチャネルの話し言葉コーパスを表現できる，汎用的なデータベーススキーマを設計し，(2) 既存のアノテーションツールで作成された，種々の書式を持つアノテーションを入力とし，汎用的なデータベーススキーマから具現化されたデータベースを構築するツールを開発する．話し言葉の分野では，広く使われている既存のアノテーションツールを有効に利用することが不可欠であり，本研究は，既存のアノテーションツールやコーパス検索ツールを用いたコーパス利用環境を構築する手法を提案する．提案手法は，開発主体の異なる複数の話し言葉コーパスに適用され，運用に供されている．

抄録全体を表示

PDF形式でダウンロード (1023K)
地方議会会議録コーパスの構築および政治情報システム構築を目標としたアノテーションの一提案

筒井貴士, 我満拓弥, 大城卓, 菅原晃平, 永井隆広, 渋木英潔, 木村泰知, 森辰則

2014 年 21 巻 2 号 p. 125-155
発行日: 2014/04/18
公開日: 2014/07/17

DOIhttps://doi.org/10.5715/jnlp.21.125

ジャーナルフリー

抄録を表示する抄録を非表示にする

近年，国会や地方議会などの会議録が Web 上に公開されている．会議録は，首長や議員の議論が書き起こされた話し言葉のデータであり，長い年月の議論が記録された通時的なデータであることから，政治学，経済学，言語学，情報工学等の様々な分野において研究の対象とされている．国会会議録を利用した研究は会議録の整備が進んでいることから，多くの分野で行われている．その一方で，地方議会会議録を利用した研究については，各分野で研究が行われているものの，自治体によりWeb上で公開されている形式が異なることが多いため，収集作業や整形作業に労力がかかっている．また，各研究者が重複するデータの電子化作業を個別に行っているといった非効率な状況も招いている．このような背景から，我々は多くの研究者が利用することを目的として，地方議会会議録を収集し，地方議会会議録コーパスを構築した．本稿では，我々が構築した地方議会会議録コーパスについて論ずる．同コーパスは，Web上で公開されている全国の地方議会会議録を対象として，「いつ」「どの会議で」「どの議員が」「何を発言したのか」などの各種情報を付与し，検索可能な形式で収録した．また，我々は会議録における発言を基に利用者と政治的に近い考えをもつ議員を判断して提示するシステムを最終的な目的としており，その開発に向けて，分析，評価用のデータ作成のために会議録中の議員の政治的課題に対する賛否とその積極性に関する注釈付けをコーパスの一部に対して行った．本稿では，注釈付けを行った結果についても報告する．

抄録全体を表示

PDF形式でダウンロード (3110K)
情報信憑性判断支援のための Web 文書向け要約生成タスクにおけるアノテーション

渋木英潔, 中野正寛, 宮崎林太郎, 石下円香, 金子浩一, 永井隆広, 森　辰則

2014 年 21 巻 2 号 p. 157-212
発行日: 2014/04/18
公開日: 2014/07/17

DOIhttps://doi.org/10.5715/jnlp.21.157

ジャーナルフリー

抄録を表示する抄録を非表示にする

我々は，利用者が信憑性を判断する上で必要となる情報を Web 文書から探し出し，要約・整理して提示する，情報信憑性判断支援のための要約に関する研究を行っている．この研究を行う上で基礎となる分析・評価用のコーパスを，改良を重ねながら 3 年間で延べ 4 回構築した．本論文では，人間の要約過程を観察するための情報と，性能を評価するための正解情報の両方を満たすタグセットとタグ付与の方法について述べる．また，全数調査が困難な Web 文書を要約対象とする研究において，タグ付与の対象文書集合をどのように決定するかといった問題に対して，我々がどのように対応したかを述べ，コーパス構築を通して得られた知見を報告する．

抄録全体を表示

PDF形式でダウンロード (8422K)
多様な文書の書き始めに対する意味関係タグ付きコーパスの構築とその分析

萩行正嗣, 河原大輔, 黒橋禎夫

2014 年 21 巻 2 号 p. 213-247
発行日: 2014/04/18
公開日: 2014/07/17

DOIhttps://doi.org/10.5715/jnlp.21.213

ジャーナルフリー

抄録を表示する抄録を非表示にする

現在，自然言語処理では意味解析の本格的な取り組みが始まりつつある．意味解析の研究には意味関係を付与したコーパスが必要であるが，従来の意味関係のタグ付きコーパスは新聞記事を中心に整備されてきた．しかし，文書には多様なジャンル，文体が存在し，その中には新聞記事では出現しないような言語現象も出現する．本研究では，従来のタグ付け基準では扱われてこなかった現象に対して新たなタグ付け基準を設定した．Webを利用することで多様な文書の書き始めからなる意味関係タグ付きコーパスを構築し，その分析を行った．

抄録全体を表示

PDF形式でダウンロード (683K)
否定の焦点情報アノテーション

松吉俊

2014 年 21 巻 2 号 p. 249-270
発行日: 2014/04/18
公開日: 2014/07/17

DOIhttps://doi.org/10.5715/jnlp.21.249

ジャーナルフリー

抄録を表示する抄録を非表示にする

「誰がいつどこで何をする」という文に「ない」や「ん」，「ず」などの語が付くと，いわゆる否定文となる．否定文において，否定の働きが及ぶ範囲をスコープと呼び，その中で特に否定される部分を焦点と呼ぶ．否定の焦点が存在する場合，一般にその焦点の箇所を除いた文の命題は成立する．それゆえ，自然言語処理において，否定の焦点が存在するか，および，どの部分が否定の焦点になっているかを自動的に判定する処理は，含意認識や情報抽出などの応用処理の高度化のために必要な技術である．本論文では，否定の焦点検出システムを構築するための基盤として，日本語における否定の焦点をテキストにアノテーションする枠組みを提案し，構築した否定の焦点コーパスについて報告する．否定文において否定の焦点を判断するための基準を提案し，否定の形態素および焦点の部分にアノテーションすべき情報について議論する．否定の焦点の判断には，「は」や「しか」などのとりたて詞や前後の文脈などが手がかりとなるため，これらを明確にアノテーションする．我々は，提案するアノテーション体系に基づいて，楽天トラベルのレビューデータと『現代日本語書き言葉均衡コーパス』内の新聞を対象としてアノテーションコーパスを構築した．本論文では，コーパス内に存在する 1,327 の否定に対するアノテーション結果を報告する．

抄録全体を表示

PDF形式でダウンロード (724K)
コミュニティ QA における意見分析のためのアノテーションに関する一検討

関洋平

2014 年 21 巻 2 号 p. 271-299
発行日: 2014/04/18
公開日: 2014/07/17

DOIhttps://doi.org/10.5715/jnlp.21.271

ジャーナルフリー

抄録を表示する抄録を非表示にする

意見分析の研究が盛んになり，世論調査，評判分析など，多岐にわたる応用が実現されている．意見分析の研究においては，他の言語処理研究と同様に，コーパスの重要性が指摘されている．意見分析研究のコーパスは，応用目的に応じて，対象とする文書ジャンルが変化し，アノテーションすべき意見の情報も変更する．現在，意見分析コーパスは，ニュース，レビュー，ブログなどの文書ジャンルを対象としたものが多い．一方で，対話型の文書ジャンルには焦点が当てられておらず，アノテーションについての明確な方針がない．本稿では，『現代日本語書き言葉均衡コーパス』に含まれるコミュニティ QA の文書を対象として，詳細な分類タイプに基づく意見情報ならびに関連した情報のアノテーションを行い，コーパスを作成する．また，複数のアノテーション情報を重ね合わせることにより，コーパス中の質問や回答に現れる意見の特徴を明らかにすることで，ドメインを横断した意見分析や，意見質問の応答技術といった，現在の意見分析研究が直面している難しい課題に対する新たな知見を提供できることを示す．

抄録全体を表示

PDF形式でダウンロード (718K)
『現代日本語書き言葉均衡コーパス』形態論情報アノテーション支援システムの設計・実装・運用

小木曽智信, 中村壮範

2014 年 21 巻 2 号 p. 301-332
発行日: 2014/04/18
公開日: 2014/07/17

DOIhttps://doi.org/10.5715/jnlp.21.301

ジャーナルフリー

抄録を表示する抄録を非表示にする

『現代日本語書き言葉均衡コーパス』は1億語を超える大規模なコーパスであり，17 万ファイル以上の XML 文書に短単位・長単位の形態論情報アノテーションが施されている．このコーパスの構築を目的としてアノテーションのためのシステムが開発された．このシステムは，辞書見出しデータベースと，タグ付けされたコーパスとを関連付けて，整合性を保ちつつ多くの作業者が編集していくことを可能にするものである．このシステムは，関係データベースで構築されたサーバ「形態論情報データベース」と，辞書を参照しながらコーパスの修正作業を可能にするコーパス修正用のクライアントツール「大納言」，形態素解析辞書 UniDic の見出し語の管理ツール「UniDic Explorer」から成る．本稿はこのデータベースシステムの設計・実装・運用について論ずる．

抄録全体を表示

PDF形式でダウンロード (1705K)
日本語文章に対する述語項構造アノテーション仕様の考察

松林優一郎, 飯田龍, 笹野遼平, 横野光, 松吉俊, 藤田篤, 宮尾祐介, 乾健太郎

2014 年 21 巻 2 号 p. 333-377
発行日: 2014/04/18
公開日: 2014/07/17

DOIhttps://doi.org/10.5715/jnlp.21.333

ジャーナルフリー

抄録を表示する抄録を非表示にする

日本語の述語項構造アノテーションコーパスは，これまでにいくつかの研究によって整備され，その結果，日本語の述語項構造解析の研究は飛躍的にその成果を伸ばした．一方で，既存のコーパスのアノテーション作業者間一致率やアノテーション結果の定性的な分析をふまえると，ラベル付与に用いる作業用のガイドラインには未だ改善の余地が大きいと言える．本論文では，より洗練された述語項構造アノテーションのガイドラインを作成することを目的とし，NAIST テキストコーパス (NTC), 京都大学テキストコーパス (KTC) のアノテーションガイドラインと実際のラベル付与例を参考に，これらのコーパスの仕様策定，仕様準拠のアノテーションに関わった研究者・アノテータ，仕様の改善に関心のある研究者らの考察をもとにガイドライン策定上の論点をまとめ，現状の問題点や，それらに対する改善策について議論・整理した結果を報告する．また，アノテーションガイドラインを継続的に改善可能とするための方法論についても議論する．

抄録全体を表示

PDF形式でダウンロード (898K)
長単位解析器の異なる品詞体系への適用

小澤俊介, 内元清貴, 伝康晴

2014 年 21 巻 2 号 p. 379-401
発行日: 2014/04/18
公開日: 2014/07/17

DOIhttps://doi.org/10.5715/jnlp.21.379

ジャーナルフリー

抄録を表示する抄録を非表示にする

言語研究において，新しい品詞体系を用いる場合には，既存の辞書やコーパス，解析器では対応できないことが多いため，これらを再構築する必要がある．これらのうち，辞書とコーパスは再利用できることが少なく，新たに構築する場合が多い．一方，解析器は既存のものを改良することで対応できることが多いものの，どのような改良が必要かは明らかになっていない．本論文では，品詞体系の異なるコーパスの解析に必要となる解析器の改良点を明らかにするためのケーススタディとして，品詞体系の異なる日本語話し言葉コーパス（以下，CSJ）と現代日本語書き言葉均衡コーパス（以下，BCCWJ）を利用して，長単位情報を自動付与した場合に生じる誤りを軽減する方策について述べる．具体的には，CSJ を基に構築した長単位解析器をBCCWJへ適用するため，CSJ と BCCWJ の形態論情報における相違点に応じて，長単位解析器の学習に用いる素性やラベルを改善した．評価実験により提案手法の有効性を示す．

抄録全体を表示

PDF形式でダウンロード (906K)

J-STAGEへの登録はこちら（無料）