自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
25 巻 , 1 号
選択された号の論文の6件中1~6を表示しています
巻頭言
論文
  • 高野 海斗, 酒井 浩之, 坂地 泰紀, 和泉 潔, 岡田 奈奈, 水内 利和
    2018 年 25 巻 1 号 p. 3-31
    発行日: 2018/02/15
    公開日: 2018/05/15
    ジャーナル フリー

    本論文では,テキストマイニング技術を用いて,株主招集通知の情報をデータベースに格納する業務の効率化を実現するための応用システムの研究について述べる.効率化したい業務とは,株主招集通知に記載されている議案の開始ページを予測し,その開始ページにおける議案の議案タイトルと議案内容を分類する業務である.本研究では,これらの業務を株主招集通知のテキスト情報を用いて自動的に行うシステムを開発し,実際に運用している.本研究によって実装したシステムと従来の人手による作業の比較実験の結果,作業時間は 1/10 程度に短縮された.議案分類の手法としては,学習データから抽出した特徴語の重みを用いた分類,多層ニューラルネットワーク(深層学習)を用いた分類,抽出した議案タイトルを用いた分類の三手法を用いた.さらに,各手法の評価を行い,各手法の議案ごとの有効性を確認した.

  • 宮部 真衣, 四方 朱子, 久保 圭, 荒牧 英治
    2018 年 25 巻 1 号 p. 33-56
    発行日: 2018/02/15
    公開日: 2018/05/15
    ジャーナル フリー

    言語に関する能力を,客観的かつ自動的に把握する需要が高まっている.例えば,近年,日本において認知症は身近なものとなっているが,認知症は,言語能力に何らかの特徴が表出する可能性があることはよく知られている.言語能力を測り,それらの兆候を捉えることができれば,早期発見や療養に役立つ可能性がある.また,現在,多くの留学生が日本語教育機関において日本語を学んでおり,学習者の習熟度に対し,適切な評価を与えることが各教育機関に求められている.しかし,書く能力や話す能力の評価は,主に評価者の主観によって行われており,評価者によって判断に揺れが生じうる.機械によって自動的かつ客観的に言語能力を測定することができれば,評価者による揺れの生じない評価の一つとして活用できる可能性がある.これまでにも,言語能力の測定に関する取り組みはあるものの,いずれも人手を介して測定を行うためコストが高く,気軽に測定することは難しい.そこで本研究では,手軽に言語能力を測定可能なシステム「言秤(コトバカリ)」を提案する.本提案システムでは,(1) 音声認識システムの組み込み,および (2) テキストデータから定量的に言語能力を測定する指標の採用を行うことで,従来人手で行っていたテキスト化および言語能力スコアの算出を自動化し,コストの軽減と手軽な測定を実現する.また,「被測定者自身による自己把握・状況改善(用途 1)」および「被測定者以外による能力の高低の判断(用途 2)」という観点から,言語能力スコア(Type・Token 比)算出における音声認識システムの利用可能性について検証を行った.書き起こし結果および音声認識結果から得られる言語能力スコアは異なるため,閾値との比較のような,単純な言語能力スコアの対比による能力の高低の判断(用途 2)は難しいことがわかった.また,同一時期に複数回測定し,書き起こし結果および音声認識結果から得られる言語能力スコアの相関を調べたところ,集団としては相関が見られなかった.一方,個人で分けると,相関が見られる発話者と見られない発話者がいることがわかった.相関が見られる発話者については,被測定者の言語能力スコアを継続的に測定し,その変化を観察することによる能力の判断(用途 1)や言語能力の現状把握・維持・改善(用途 2)ができる可能性が示唆された.

  • 新里 圭司, 小山田 由紀
    2018 年 25 巻 1 号 p. 57-79
    発行日: 2018/02/15
    公開日: 2018/05/15
    ジャーナル フリー

    本稿では,オンラインショッピングサイト出店者に対して書かれたレビュー(以下,店舗レビュー)内の各文を,言及されているアスペクト(例えば,商品の配送や梱包)とその評価極性(肯定,否定)に応じて分類するシステムについて述べる.店舗レビュー中にどのようなアスペクトが記載されているのかは明らかでないため,まず店舗レビュー 100 件(487 文)を対象に,各文がどのようなアスペクトについて書かれているのか調査した.その結果,14 種類のアスペクトについて書かれていることがわかった.そして,この調査結果をもとに 1,510 件の店舗レビューに含まれる 5,277 文に対して人手でアスペクトおよびその評価極性のアノテーションを行い,既存の機械学習ライブラリを用いてレビュー内の文を分類するシステムを開発した.本システムを用いることで,任意のアスペクトについて,その記述を含むレビューへ効率良くアクセスしたり,その評判の時系列変化を調べたりすることが可能になる.

  • 田中 英輝, 熊野 正, 後藤 功雄, 美野 秀弥
    2018 年 25 巻 1 号 p. 81-117
    発行日: 2018/02/15
    公開日: 2018/05/15
    ジャーナル フリー

    NHK はインターネットサイト NEWS WEB EASY で外国人を対象としたやさしい日本語のニュースを提供している.やさしい日本語のニュースは日本語教師と記者の 2 名が通常のニュースを共同でやさしく書き換えて制作し,本文にはふりがな,難しい語への辞書といった読解補助情報が付与されている.本稿では NEWS WEB EASY のやさしい日本語の書き換え原則,および制作の体制とプロセスの概要と課題を説明した後,課題に対処するために開発した 2 つのエディタを説明する.1 つは書き換えを支援する「書き換えエディタ」である.書き換えエディタは先行のシステムと同様に難しい語を指摘し,書き換え候補を提示する機能を持つが,2 名以上の共同作業を支援する点,難しい語の指摘機能に学習機能を持つ点,また,候補の提示に書き換え事例を蓄積して利用する点に特徴がある.他の 1 つは「読解補助情報エディタ」である.読解補助情報エディタは,ふりがなや辞書情報を自動推定する機能,さらに推定誤りの修正結果を学習する機能を持つ.以上のように 2 つのエディタは,自動学習と用例の利用により,読解補助情報の推定の誤り,やさしい日本語の書き方の方針変更などに日々の運用の中で自律的に対応できるようになっている.本稿では 2 つのエディタの詳細説明の後,日本語教師および記者を対象に実施したアンケート調査,およびログ解析によりエディタの有効性を示す.

技術資料
  • 荒牧 英治, 若宮 翔子, 矢野 憲, 永井 宥之, 岡久 太郎, 伊藤 薫
    2018 年 25 巻 1 号 p. 119-152
    発行日: 2018/02/15
    公開日: 2018/05/15
    ジャーナル フリー

    高度な人工知能研究のためには,その材料となるデータが必須となる.医療,特に臨床に関わる分野において,人工知能研究の材料となるデータは主に自然言語文を含む電子カルテである.このようなデータを最大限に利用するには,自然言語処理による情報抽出が必須であり,同時に,情報抽出技術を開発するためのコーパスが必要となる.本コーパスの特徴は,45,000 テキストという我々の知る限りもっとも大規模なデータを構築した点と,単に用語のアノテーションや用語の標準化を行っただけでなく,当該の疾患が実際に患者に生じたかどうかという事実性をアノテーションした点の 2 点である.本稿では病名や症状のアノテーションを対象に,この医療コーパス開発についてその詳細を述べる.人工知能研究のための医療コーパス開発について病名や症状のアノテーションを中心にその詳細を述べる.本稿の構成は以下の通りである.まず,アノテーションの基準について,例を交えながら,概念の定義について述べる.次に,実際にアノテーターが作業した際の一致率などの指標を算出し,アノテーションのフィージビリティについて述べる.最後に,構築したコーパスを用いた病名抽出システムについて報告する.本稿のアノテーション仕様は,様々な医療テキストや医療表現をアノテーションする際の参考となるであろう.

feedback
Top