自然言語処理

巻頭言

編集委員長就任にあたって

黒橋禎夫

2019 年26 巻2 号 p. 275-276
発行日: 2019/06/15
公開日: 2019/09/15

DOIhttps://doi.org/10.5715/jnlp.26.275

ジャーナルフリー

PDF形式でダウンロード (149K)

論文

Automatically Computable Metrics to Generate Metaphorical Verb Expressions

Akira Miyazawa, Yusuke Miyao

2019 年26 巻2 号 p. 277-300
発行日: 2019/06/15
公開日: 2019/09/15

DOIhttps://doi.org/10.5715/jnlp.26.277

ジャーナルフリー

抄録を表示する抄録を非表示にする

The automatic generation of metaphorical expressions helps us write imaginative texts such as poems or novels. This paper proposes a new metaphor generation task, evaluation metrics, and a method to solve the task. Our task is formalized as a problem of finding metaphorical paraphrases for a literal Japanese phrase consisting of a subject, an object, and a verb. We use four evaluation metrics: synonymousness, metaphoricity, novelty, and comprehensibility. Our proposed method generates metaphorical expressions by using three automatically computable scores—similarity, figurativeness, and rarity—corresponding to one of the evaluation metrics. By crowdsourcing, we show how these scores are related to those given by humans in terms of the evaluation metrics and how they are useful in finding human’s preferred expressions in pairwise comparisons.

抄録全体を表示

PDF形式でダウンロード (1281K)
日本語の読み時間と節境界情報―主辞後置言語における wrap-up effect の検証―

浅原正幸

2019 年26 巻2 号 p. 301-327
発行日: 2019/06/15
公開日: 2019/09/15

DOIhttps://doi.org/10.5715/jnlp.26.301

ジャーナルフリー

抄録を表示する抄録を非表示にする

本論文では，リーダビリティ評価を目的として，日本語テキストの読み時間と節境界分類の対照分析を行う．日本語母語話者の読み時間データ BCCWJ-EyeTrack と節境界情報アノテーションを『現代日本語書き言葉均衡コーパス』上で重ね合わせ，ベイジアン線形混合モデルを用いて節末で，どのように読み時間が変わるかについて検討した．結果，英語などの先行研究で言われている節末で読み時間が長くなるという wrap-up effect とは反対の結果が得られた．他の結果として，節間の述語項関係が読み時間の短縮に寄与することがわかった．

抄録全体を表示

PDF形式でダウンロード (2080K)
Annotating a Driving Experience Corpus with Behavior and Subjectivity

Ritsuko Iwai, Daisuke Kawahara, Takatsune Kumada, Sadao Kurohashi

2019 年26 巻2 号 p. 329-359
発行日: 2019/06/15
公開日: 2019/09/15

DOIhttps://doi.org/10.5715/jnlp.26.329

ジャーナルフリー

抄録を表示する抄録を非表示にする

To communicate with humans in a human-like manner, systems need to understand behavior and psychological states in situations of human-machine interactions, such as in the cases of autonomous driving and nursing robots. We focus on driving situations as they are part of our daily lives and concern safety. To develop such systems, a corpus annotated with behavior and subjectivity in driving situations is necessary. In this study, subjectivity includes emotions, polarity, sentiments, human judgments, perceptions, and cognitions. We construct a driving experience corpus (DEC) (261 blog articles, 8,080 sentences) with four manually annotated tags. First, we annotate spans with driving experience tags (DE). Then, three tags, other’s behavior (OB), self-behavior (SB), and subjectivity (SJ), are annotated within DE spans. In addition to describing the guidelines, we present corpus specifications, agreement between annotators, and three major difficulties during the development: the extended self, important information, and voice in mind. Automatic annotation experiments were conducted on the DEC using Conditional Random Fields-based methods. On the test set, the F-scores were about .55 for both OB and SB and approximately. 75 for SJ, respectively. We provide error analysis that reveals difficulties in interpreting nominatives and differentiating behavior from subjectivity.

抄録全体を表示

PDF形式でダウンロード (1002K)
概念辞書の類義語と分散表現を利用した教師なし all-words WSD

鈴木類, 古宮嘉那子, 浅原正幸, 佐々木稔, 新納浩幸

2019 年26 巻2 号 p. 361-379
発行日: 2019/06/15
公開日: 2019/09/15

DOIhttps://doi.org/10.5715/jnlp.26.361

ジャーナルフリー

抄録を表示する抄録を非表示にする

all-words 語義曖昧性解消（以下 all-words WSD (word sense disambiguation)）とは文書中のすべての単語の語義ラベルを付与するタスクである．単語の語義は文脈，すなわち周辺の単語によって推定でき，周辺の単語同士が類似している場合中心の単語同士の語義も類似していると考える．そこで本研究では，対象単語とその類義語群から周辺単語の分散表現を作成し，ユークリッド距離を計算することで対象単語の語義を予測した．また，語義の予測結果をもとにコーパスを語義ラベル列に変換し，語義の分散表現を作成した．語義の分散表現を用いて周辺単語ベクトルを作成し直し，再び語義の予測を行った．コーパスには分類語彙表番号がアノテーションされた『現代日本語書き言葉均衡コーパス』(BCCWJ) を利用した．本研究では分類語彙表における分類番号を語義とし，類義語も分類語彙表から取得した．本研究では，提案手法とランダムベースライン，Pseudo Most Frequent Sense (PMFS)，Yarowsky の手法，LDAWN を比較し，提案手法が勝ることを示した．

抄録全体を表示

PDF形式でダウンロード (808K)
ソーシャルメディアにおける単語の一般的ではない用法の検出

青木竜哉, 笹野遼平, 高村大也, 奥村学

2019 年26 巻2 号 p. 381-406
発行日: 2019/06/15
公開日: 2019/09/15

DOIhttps://doi.org/10.5715/jnlp.26.381

ジャーナルフリー

抄録を表示する抄録を非表示にする

ソーシャルメディアにおいては，辞書に掲載されているような用法とは全く異なる使われ方がされている単語が存在する．本論文では，ソーシャルメディアにおける単語の一般的ではない用法を検出する手法を提案する．提案手法では，ある単語が一般的ではない使われ方がされていた場合，その周辺単語は一般的な用法として使われた場合の周辺単語と異なるという仮説に基づいて，着目単語とその周辺単語の単語ベクトルを利用し，注目している単語の周辺単語が均衡コーパスにおける一般的な用法の場合の周辺単語とどの程度異なっているかを評価することにより，一般的ではない用法の検出を行う．ソーシャルメディアにおいて一般的ではない用法を持つ40単語を対象に行った実験の結果，均衡コーパスと周辺単語ベクトルを用いる提案手法の有効性を確認できた．また，一般的でない用法の検出においては，単語ベクトルの学習手法，学習された単語ベクトルの扱い方，学習コーパスを適切に選択することが重要であることがわかった．

抄録全体を表示

PDF形式でダウンロード (590K)
発話テキストへのキャラクタ性付与のための音変化表現の分類

宮崎千明, 佐藤理史

2019 年26 巻2 号 p. 407-440
発行日: 2019/06/15
公開日: 2019/09/15

DOIhttps://doi.org/10.5715/jnlp.26.407

ジャーナルフリー

抄録を表示する抄録を非表示にする

「こりゃひでえ」（元の形：「これはひどい」）のような音変化表現は，対話エージェントの発話や小説のセリフの自動生成において，話者であるキャラクタを特徴付けるための強力な手段となると考えられる．音変化表現を発話のキャラクタ付けに利用するために，本研究では，(i) キャラクタの発話に現れる音変化表現を収集し，(ii) それらを基に，音変化表現を人為的に発生させるための知識を整理した．具体的には，収集した音変化表現を現象と生起環境の観点で分類し，137 種類のパターンとして整理した．そして，これらのパターンが小説やコミックで用いられる音変化表現の 80% 以上をカバーすることを確認した．さらに，(iii) 音変化表現がキャラクタらしさを特徴付ける手段になるという仮説を検証するために，小説やコミックにおける発話文の話者（キャラクタ）を推定する実験を行い，音変化表現のパターンの情報を利用することで，推定性能が向上するキャラクタが存在することを確認した．

抄録全体を表示

PDF形式でダウンロード (1390K)
日本語の文法機能タイプ付き単語依存構造解析

田中貴秋, 永田昌明

2019 年26 巻2 号 p. 441-481
発行日: 2019/06/15
公開日: 2019/09/15

DOIhttps://doi.org/10.5715/jnlp.26.441

ジャーナルフリー

抄録を表示する抄録を非表示にする

本論文では，従来の文節依存構造（文節係り受け）による構文解析と異なり，解析結果の部分構造が構文の構成素 (constituent) と一致し，解析結果から文法機能情報を直接取得できる日本語の構文解析を提案する．提案する構文解析は，単語間の依存構造に基づき，依存構造に付加されたラベル（文法機能タイプ）により格関係や連体修飾節の種別等の統語情報（文法機能情報）を表示する．この特徴により，文節依存構造解析では通常別工程として処理していた述語項構造解析を，単語依存構造解析では構文構造と自然に統合して扱うことが可能になる．京都大学テキストコーパス，現代日本語書き言葉均衡コーパスの一部に対して構築したコーパスを用いた評価実験により，単語依存構造解析は，従来の文節依存構造解析とほぼ同等の精度を保ちつつ，述語項構造情報等の詳細な統語情報を獲得可能であることを報告する．

抄録全体を表示

PDF形式でダウンロード (1754K)
外界一人称と二人称を考慮する日本語述語項構造解析の分野適応

珊瑚彩主紀, 西川仁, 徳永健伸

2019 年26 巻2 号 p. 483-508
発行日: 2019/06/15
公開日: 2019/09/15

DOIhttps://doi.org/10.5715/jnlp.26.483

ジャーナルフリー

抄録を表示する抄録を非表示にする

本稿では，日本語述語項構造解析に分野適応の技術を導入することを提案する．述語項構造がアノテーション付けされた現代日本語書き言葉均衡コーパス (BCCWJ-PAS) において，メディアの違いにより項の種類の出現頻度が異なることがわかった．特に外界照応においてその傾向は顕著である．過去の日本語述語項構造解析の多くは，新聞記事コーパスを対象にしているために，この傾向には注目していなかった．この問題に取り組むため，まず，RNN ベースの述語項構造解析器をベースラインとして使用し，3 種類の異なる分野適応技術とその組み合わせを導入した．現代日本語書き言葉均衡コーパス (BCCWJ-PAS) を用いた評価実験では，述語項構造解析には分野依存性があることがわかった．特にガ格とヲ格の解析では，分野適応が日本語述語項構造解析の性能向上に有効であることが確認され，QA テキストの解析においてベースラインと比較し F1 値が最大で，0.030 向上した．

抄録全体を表示

PDF形式でダウンロード (565K)
大規模格フレームによる解候補削減を用いたニューラルネットゼロ照応解析

山城颯太, 西川仁, 徳永健伸

2019 年26 巻2 号 p. 509-536
発行日: 2019/06/15
公開日: 2019/09/15

DOIhttps://doi.org/10.5715/jnlp.26.509

ジャーナルフリー

抄録を表示する抄録を非表示にする

本論文では日本語文内・文間ゼロ照応解析モデルを提案する．文間ゼロ照応解析において複数格の同時推定を行う際，複数の文をまたぐ大量の格要素の組合せ候補を取り扱う必要があり，これはゼロ照応解析モデルの訓練，解析に際して重大な障害となる．この問題に対して，我々は格フレームの情報を用いた効果的な解候補削減手法を提案する．提案解候補削減を用いて複数格を同時推定したモデルと解候補削減を用いずにそれぞれの格を独立に推定したモデルを日本語均衡コーパス上で比較し，0.056 の精度向上を確認した．また，ローカルアテンション付き RNN を導入することで，文間ゼロ照応解析の精度が上昇することも確認した．

抄録全体を表示

PDF形式でダウンロード (648K)

J-STAGEへの登録はこちら（無料）