自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
27 巻, 4 号
選択された号の論文の16件中1~16を表示しています
巻頭言
一般論文
  • 寺西 裕紀, 進藤 裕之, 渡辺 太郎, 松本 裕治
    2020 年 27 巻 4 号 p. 719-752
    発行日: 2020/12/15
    公開日: 2021/03/15
    ジャーナル フリー

    並列構造解析とは等位接続詞によって結びつけられる句を同定するタスクである.並列構造は自然言語の曖昧性の主たる要因の一つであり,最高精度の構文解析器であっても誤りを生じさせる.本研究は,句のペアが並列となる場合に高いスコアを出力するようなスコア関数を定義し,解析時にはスコア関数と CKY アルゴリズムを組み合わせた構文解析によって並列構造を導出する.提案手法では並列構造解析を三つのサブタスクに分解し,それぞれのサブタスクを学習した三つのニューラルネットワークによってスコア関数を構成する.提案手法が並列構造を範囲の競合なく導出できることを保証しつつ,既存手法より高い精度で並列構造を同定できることを英語における評価実験により示す.

  • 栗林 樹生, 大内 啓樹, 井之上 直也, 鈴木 潤, Paul Reisert, 三好 利昇, 乾 健太郎
    2020 年 27 巻 4 号 p. 753-779
    発行日: 2020/12/15
    公開日: 2021/03/15
    ジャーナル フリー

    論述構造解析は,小論文などの論述文を解析対象とし,節や文といった談話単位の役割(主張,根拠など),談話単位間の関係(支持,反論など)を予測するタスクである.論述文の自動評価や意見の集約などへの応用可能性から,本タスクは注目を集めている.論述構造解析では,談話単位(スパン)が処理の基本単位となるため,スパンに対する特徴ベクトル表現(分散表現)を,どのように計算するかはモデル設計における重要な点である.本研究では,自然言語処理の諸タスクにおけるスパン分散表現の研究を踏まえ,論述構造解析において効果的な談話単位のスパン分散表現の獲得方法を提案する.文章中の機能的な表現(接続表現)と論理的な筋を構成する内容(命題)というそれぞれの粒度で文章の大域的な文脈情報を捉えることが重要であるという仮定に基づき,提案法では各談話単位に複数のレベルの大域的な文脈情報を取り込む.本スパン分散表現を用いることにより,特にこれまでの手法では同定が困難であった複雑な構造をもつ論述文において,解析性能が向上し,複数のベンチマークデータセット上で最高性能を更新した.また,BERT などの強力な言語モデルから得られる単語分散表現を用いた際にも,既存のスパン分散表現獲得方法では十分な性能が得られないが,提案手法によりスパン分散表現の獲得方法を工夫することで,性能が大きく向上することを報告する.

  • Kaori Abe, Yuichiroh Matsubayashi, Naoaki Okazaki, Kentaro Inui
    2020 年 27 巻 4 号 p. 781-800
    発行日: 2020/12/15
    公開日: 2021/03/15
    ジャーナル フリー

    We present a multi-dialect neural machine translation (NMT) model tailored to Japanese. Although the surface forms of Japanese dialects differ from those of standard Japanese, most of the dialects have common fundamental properties, such as word order, and some also use numerous same phonetic correspondence rules. To take advantage of these properties, we integrate multilingual, syllable-level, and fixed-order translation techniques into a general NMT model. Our experimental results demonstrate that this model can outperform a baseline dialect translation model. In addition, we show that visualizing the dialect embeddings learned by the model can facilitate the geographical and typological analyses of the dialects.

  • 梶原 智之, 西原 大貴, 小平 知範, 小町 守
    2020 年 27 巻 4 号 p. 801-824
    発行日: 2020/12/15
    公開日: 2021/03/15
    ジャーナル フリー

    本研究では,日本語の語彙平易化のために,評価用データセット・辞書・実装や評価を支援するツールキットの 3 種類の言語資源を整備する.我々は既存の小規模な単語難易度辞書をもとに単語難易度の推定器を訓練し,大規模な日本語の単語難易度辞書および難解な単語から平易な単語への言い換え辞書を自動構築する.本研究で構築する評価用データセットを用いた評価実験によって,この辞書に基づく語彙平易化システムが高い性能を達成することを示す.我々のツールキットは,辞書の他,語彙平易化パイプラインにおける主要な手法を実装しており,これらの手法を組み合わせたシステムの構築および構築したシステムの自動評価の機能を提供する.

  • 石垣 達也, 町田 和哉, 小林 隼人, 高村 大也, 奥村 学
    2020 年 27 巻 4 号 p. 825-852
    発行日: 2020/12/15
    公開日: 2021/03/15
    ジャーナル フリー

    本稿は質問を対象とした抽出型要約を扱う.ニューラルネットワークによる抽出型要約モデルの学習には,大規模なラベル付きデータが必要となる.ユーザが自由に記述する Yahoo! 知恵袋などのコミュニティ QA (CQA) に投稿される質問に対しては,ラベル付きデータの獲得が難しい.そこで,本研究ではラベル付きデータが不足する問題を軽減するため,小規模な人手ラベル付きデータに加え,CQA から大量に獲得可能な質問-回答ペアを活用する,半教師あり要約モデルを提案する.また,提案モデルの学習法として,質問-回答ペアを活用した事前学習,同時学習,Distant Supervision による疑似ラベルの活用,サンプリング手法などを提案する.従来の半教師あり学習の枠組みでは考慮されてこなかった,質問-回答といったペア構造から,効率的に要約モデルを学習する手法を考察する.実験より,適切なサンプリング法や疑似ラベルを用いた同時学習手法により,特にラベル付きデータが小規模な場合に良い性能を示したことを報告する.

  • 加藤 祥, 菊地 礼, 浅原 正幸
    2020 年 27 巻 4 号 p. 853-887
    発行日: 2020/12/15
    公開日: 2021/03/15
    ジャーナル フリー

    日本語の比喩表現の実態把握を目的として,『現代日本語書き言葉均衡コーパス』に基づく指標比喩データベースを構築した.『比喩表現の理論と分類』に掲載されている 359 種類の比喩指標要素を手掛かりとし,『分類語彙表』に基づいて類義用例を確認しながら指標比喩表現候補を展開し,コアデータ6レジスタ(Yahoo! 知恵袋・白書・Yahoo! ブログ・書籍・雑誌・新聞)1,290,060 語から人手で 822 件抽出した.抽出した比喩用例には,喩辞・被喩辞の情報と,その分類語彙表番号を付与したほか,擬人化・擬物化・擬生化・具象化などの種別情報も付与した.さらに提喩・換喩・文脈比喩・慣用表現などの情報も付与した.上記作業は言語学者によったが,非専門家が比喩表現をどのように捉えるかを評価するために,比喩性・新奇性・わかりやすさ・擬人化・具体化(具象化)の 5 つの観点について,1事例あたり 22–77 人分(平均 33 人分)の評定値を付与した.レジスタ毎の相対度数や評定値の分布により,現代日本語の指標比喩表現の使用傾向を確認した.

  • 岸本 裕大, 村脇 有吾, 河原 大輔, 黒橋 禎夫
    2020 年 27 巻 4 号 p. 889-931
    発行日: 2020/12/15
    公開日: 2021/03/15
    ジャーナル フリー

    談話関係解析は自然言語処理の基盤的な解析の一つであるが,日本語におけるコーパスベースの談話関係解析の研究はほとんどない.本研究では日本語の談話関係解析を実用化するため,日本語の談話関係タグ付きコーパスを構築する.日本語の談話関係タグ付きコーパスでは,談話単位,談話標識,談話関係タグの3項目をアノテーションする.その際,高速にコーパスを構築するため,以下の4つの手法を採用する.(1) Web ページの冒頭3文を収集したコーパスにアノテーションする.(2) 談話関係タグセットは2階層7種類とする.(3) 談話単位と談話標識は自動認識する.(4) 熟練のアノテータによる小規模・高品質なものとクラウドソーシングを用いた大規模なものの 2 種類のアノテーションを実施する.構築したコーパスを分析した結果,クラウドソーシングを用いたものは改善の余地があることが分かった.構築した談話関係タグ付きコーパスを用いて,談話関係解析器を訓練する.実験の結果,タグ付きコーパスが機械学習ベースの解析モデルの学習に有効であることが分かった.また,明示的な談話関係に限れば,本研究で整備した談話標識の自動認識が高精度な解析器として利用可能であることを示した.本研究で構築した日本語談話関係タグ付きコーパスは公開し,談話単位と談話標識の自動認識器は日本語構文・格解析器KNPに実装されている.

学会記事
feedback
Top