自然言語処理

巻頭言（査読無）

ゲノムと言語

富士秀

2022 年29 巻3 号 p. 760-761
発行日: 2022年
公開日: 2022/09/15

DOIhttps://doi.org/10.5715/jnlp.29.760

ジャーナルフリー

PDF形式でダウンロード (102K)

一般論文

A Peek Into the Memory of T5: Investigating the Factual Knowledge Memory in a Closed-Book QA Setting and Finding Responsible Parts

Tareq Alkhaldi, Chenhui Chu, Sadao Kurohashi

2022 年29 巻3 号 p. 762-784
発行日: 2022年
公開日: 2022/09/15

DOIhttps://doi.org/10.5715/jnlp.29.762

ジャーナルフリー

抄録を表示する抄録を非表示にする

Recent research shows that Transformer-based language models (LMs) store considerable factual knowledge from the unstructured text datasets on which they are pre-trained. The existence and amount of such knowledge have been investigated by probing pre-trained Transformers to answer questions without accessing any external context or knowledge (also called closed-book question answering (QA)). However, this factual knowledge is spread over the parameters inexplicably. The parts of the model most responsible for finding an answer only from a question are unclear. This study aims to understand which parts are responsible for the Transformer-based T5 reaching an answer in a closed-book QA setting. Furthermore, we introduce a head importance scoring method and compare it with other methods on three datasets. We investigate important parts by looking inside the attention heads in a novel manner. We also investigate why some heads are more critical than others and suggest a good identification approach. We demonstrate that some model parts are more important than others in retaining knowledge through a series of pruning experiments. We also investigate the roles of encoder and decoder in a closed-book setting.

抄録全体を表示

PDF形式でダウンロード (1033K)
A Simple and Effective Usage of Word Clusters for CBOW Model

Yukun Feng, Chenlong Hu, Hidetaka Kamigaito, Hiroya Takamura, Manabu O ...

2022 年29 巻3 号 p. 785-806
発行日: 2022年
公開日: 2022/09/15

DOIhttps://doi.org/10.5715/jnlp.29.785

ジャーナルフリー

抄録を表示する抄録を非表示にする

We propose a simple and effective method for incorporating word clusters into the Continuous Bag-of-Words (CBOW) model. Specifically, we propose replacing infrequent input and output words in CBOW with their clusters. The resulting cluster-incorporated CBOW model produces embeddings of frequent words and a small amount of cluster embeddings, which will be fine-tuned in downstream tasks. We empirically demonstrate that our replacing method works well on several downstream tasks. Through our analysis, we also show that our method is potentially useful for other similar models that produce word embeddings.

抄録全体を表示

PDF形式でダウンロード (1882K)
弱教師あり学習によるイベントの意志性・主語有生性の分類の同時学習

清丸寛一, 黒橋禎夫

2022 年29 巻3 号 p. 807-834
発行日: 2022年
公開日: 2022/09/15

DOIhttps://doi.org/10.5715/jnlp.29.807

ジャーナルフリー

抄録を表示する抄録を非表示にする

意志性と主語有生性はイベントの基本的な属性であり，密接な関係にある．これらの認識は文脈を考慮したテキスト理解を必要とし，その学習には大量のラベル付きデータを要する．本論文では，人手でラベル付きデータを構築することなく，意志性と主語有生性を同時学習する手法を提案する．提案手法では生コーパス中のイベントにヒューリスティクスを用いてラベルを付与する．意志性のラベルは「わざと」や「うっかり」といった意志性を示す副詞を頼りに付与する．主語有生性のラベルは知識ベースに登録されている有生名詞・無生名詞を頼りに付与する．こうして集めたイベントから手がかり語を含まないイベントに汎化する分類器を構築する．本研究ではこの問題をバイアス削減ないしは教師なしドメイン適応の問題とみなして解く．日本語と英語の実験で，提案手法により，人手でラベル付きデータを構築することなく，意志性・主語有生性の高精度な分類器を構築できることを示した．

抄録全体を表示

PDF形式でダウンロード (548K)
Hie-BART: 階層型 BART による生成型要約

秋山和輝, 田村晃裕, 二宮崇, 梶原智之

2022 年29 巻3 号 p. 835-853
発行日: 2022年
公開日: 2022/09/15

DOIhttps://doi.org/10.5715/jnlp.29.835

ジャーナルフリー

抄録を表示する抄録を非表示にする

本稿では，BART モデルに文書の階層構造（文-単語構造）を取り込んだ階層型 BART (Hie-BART) を提案する．既存の BART モデルは，生成型文書要約タスクにおいて高い要約精度を達成しているが，文レベルと単語レベルの情報の相互作用を考慮していない．一方，機械翻訳タスクでは，単語とフレーズ間の関係を把握する Multi-Granularity Self-Attention (MG-SA) が提案されており，この技術によってニューラル機械翻訳モデルの性能が向上されている．提案手法である Hie-BART モデルでは，BART モデルのエンコーダに MG-SA を組み込むことで，文と単語の階層構造を捉える．評価実験の結果，提案手法は CNN/Daily Mail データセットを用いた評価では ROUGE-L において 0.1 ポイントの改善が見られた．

抄録全体を表示

PDF形式でダウンロード (622K)
簡易小型化 BERT による日本語構文解析

河野慎司, 古宮嘉那子, 新納浩幸

2022 年29 巻3 号 p. 854-874
発行日: 2022年
公開日: 2022/09/15

DOIhttps://doi.org/10.5715/jnlp.29.854

ジャーナルフリー

抄録を表示する抄録を非表示にする

BERT は fine-tuning することで様々な NLP タスクに対して高性能な結果を出した事前学習済みモデルであるが，多くのパラメータを調整する必要があるため学習や推論に時間がかかるという問題がある．本論文では日本語構文解析に対して，BERT の一部の層を削除した簡易小型化 BERT の利用を提案する．実験では，京都大学ウェブ文書リードコーパスと京都大学テキストコーパスを混合したデータを用いて，京大版の BERT とそこから構築した簡易小型化 BERT の正解率と処理時間を比較した．提案する簡易小型化 BERT では，京大版の BERT からの正解率の劣化をウェブコーパスで 0.87 ポイント，テキストコーパスで 0.91 ポイントに押さえながら，学習時間は 83%，推論時間はウェブコーパスで 65%，テキストコーパスで 85%まで削減することができた．

抄録全体を表示

PDF形式でダウンロード (1278K)
疑似正解データを活用したニューラル修辞構造解析

小林尚輝, 平尾努, 上垣外英剛, 奥村学, 永田昌明

2022 年29 巻3 号 p. 875-900
発行日: 2022年
公開日: 2022/09/15

DOIhttps://doi.org/10.5715/jnlp.29.875

ジャーナルフリー

抄録を表示する抄録を非表示にする

修辞構造解析ではニューラルネットワークなどの識別器を用いた解析器を教師あり学習により学習する．しかし，現存の最大規模のコーパスである RST-DT は 385 文書しかなく，ニューラルネットワークを学習するに十分な量とは言い難い．このような学習データの不足は，クラス数が多く頻度に偏りのある修辞関係ラベルの推定において性能低下の原因となる．そこで，本論文では自動的に修辞構造を付与した疑似正解データセットを利用したニューラル修辞構造解析手法を提案する．疑似正解データセットは複数の解析器により得られた修辞構造木の間で共通する部分木とし，ニューラル修辞構造解析器の事前学習に利用し，人手で作成した正解データを用いて解析器を追加学習する．RST-DT コーパスを用いた実験では，提案手法は OriginalParseval による核性と修辞関係の評価においてそれぞれ micro-F1 で 64.7，54.1 を達成した．

抄録全体を表示

PDF形式でダウンロード (733K)
Analyzing Methods for Generating Feedback Comments for Language Learners

Kazuaki Hanawa, Ryo Nagata, Kentaro Inui

2022 年29 巻3 号 p. 901-924
発行日: 2022年
公開日: 2022/09/15

DOIhttps://doi.org/10.5715/jnlp.29.901

ジャーナルフリー

抄録を表示する抄録を非表示にする

Feedback comment generation is the task of generating explanatory notes for language learners. Although various generation techniques are available, little is known about which methods are appropriate for this task. Nagata (2019) demonstrates the effectiveness of neural-retrieval-based methods in generating feedback comments for preposition use. Retrieval-based methods have limitations in that they can only output feedback comments existing in the given training data. Besides, feedback comments can be made on other grammatical and writing items other than preposition use, which has not yet been addressed. To shed light on these points, we investigate a wider range of methods for generating various types of feedback comments in this study. Our close analysis of the features of the task leads us to investigate three different architectures for comment generation: (i) a neural-retrieval-based method as a baseline, (ii) a pointer-generator-based generation method as a neural seq2seq method, (iii) a retrieve-and-edit method, a hybrid of (i) and (ii). Intuitively, the pointer-generator should outperform neural-retrieval, and retrieve-and-edit should perform the best. However, in our experiments, this expectation is completely overturned. We closely analyze the results to reveal the major causes of these counter-intuitive results and report on our findings from the experiments, which will lead to further developments of feedback comment generation.

抄録全体を表示

PDF形式でダウンロード (1533K)

解説論文（査読有）

特許機械翻訳の課題解決に向けた機械翻訳技術解説

今村賢治, 越前谷博, 江原暉将, 後藤功雄, 須藤克仁, 園尾聡, 綱川隆司, 中澤敏明, 二宮　崇, 王向莉

2022 年29 巻3 号 p. 925-985
発行日: 2022年
公開日: 2022/09/15

DOIhttps://doi.org/10.5715/jnlp.29.925

ジャーナルフリー

抄録を表示する抄録を非表示にする

本解説論文では，特許を対象とした機械翻訳における種々の課題に対する関連技術の解説を行う．特許に対する機械翻訳は実用的にも学術的にも長い歴史を持つが，ニューラル機械翻訳の登場で新たな段階に進んできたと言える．そうした動向を踏まえ，訳抜け・過剰訳への対策，用語訳の統一，長文対策，低リソース言語対対策，評価，翻訳の高速化・省メモリ化，の6項目に分けて近年の関連技術を紹介し，今後の方向性を論じる．

抄録全体を表示

PDF形式でダウンロード (2010K)

学会記事

国立情報学研究所「情報学研究データリポジトリ (IDR)」の紹介

大須賀智子, 大山敬三

2022 年29 巻3 号 p. 986-990
発行日: 2022年
公開日: 2022/09/15

DOIhttps://doi.org/10.5715/jnlp.29.986

ジャーナルフリー

PDF形式でダウンロード (260K)
Are Prompt-based Models Clueless?

Pride Kavumba, Ryo Takahashi, Yusuke Oda

2022 年29 巻3 号 p. 991-996
発行日: 2022年
公開日: 2022/09/15

DOIhttps://doi.org/10.5715/jnlp.29.991

ジャーナルフリー

PDF形式でダウンロード (121K)
言語の背後にある普遍性：人工言語とエンティティの研究を通じて

李凌寒

2022 年29 巻3 号 p. 997-1001
発行日: 2022年
公開日: 2022/09/15

DOIhttps://doi.org/10.5715/jnlp.29.997

ジャーナルフリー

PDF形式でダウンロード (242K)
Syntactic-Semantic Dependency Correlation in Semantic Role Labeling: A Shift in Semantic Label Distributions

Junjie Chen

2022 年29 巻3 号 p. 1002-1009
発行日: 2022年
公開日: 2022/09/15

DOIhttps://doi.org/10.5715/jnlp.29.1002

ジャーナルフリー

PDF形式でダウンロード (658K)
言語処理学会第 28 回年次大会ワークショップ「NLP における再現性」開催報告

高瀬翔

2022 年29 巻3 号 p. 1010-1014
発行日: 2022年
公開日: 2022/09/15

DOIhttps://doi.org/10.5715/jnlp.29.1010

ジャーナルフリー

PDF形式でダウンロード (232K)
NINJAL Parsed Corpus of Modern Japanese の構築と公開

吉本啓, パルデシプラシャント, 長崎郁, Alastair J. Butler

2022 年29 巻3 号 p. 1015-1022
発行日: 2022年
公開日: 2022/09/15

DOIhttps://doi.org/10.5715/jnlp.29.1015

ジャーナルフリー

PDF形式でダウンロード (345K)
日本語における評価用データセットの構築と利用性の向上―JED2022 ワークショップの成果と展望

松田寛, 柴田知秀, 河原大輔, 久本空海, 久保隆宏, 浅原正幸

2022 年29 巻3 号 p. 1023-1029
発行日: 2022年
公開日: 2022/09/15

DOIhttps://doi.org/10.5715/jnlp.29.1023

ジャーナルフリー

PDF形式でダウンロード (334K)
「言語統計力学」= 言語学・自然言語処理・物理学

持橋大地, 小木曽智信, 高村大也, 小町守

2022 年29 巻3 号 p. 1030-1036
発行日: 2022年
公開日: 2022/09/15

DOIhttps://doi.org/10.5715/jnlp.29.1030

ジャーナルフリー

PDF形式でダウンロード (582K)
許容される二次投稿

浅原正幸, 吉田光男, 宮尾祐介, 内山将夫

2022 年29 巻3 号 p. 1037-1042
発行日: 2022年
公開日: 2022/09/15

DOIhttps://doi.org/10.5715/jnlp.29.1037

ジャーナルフリー

PDF形式でダウンロード (667K)

後付記事（査読無）

編集後記・原稿執筆案内・編集スケジュール・統計情報・学会案内

2022 年29 巻3 号 p. 1043-1049
発行日: 2022年
公開日: 2022/09/15

DOIhttps://doi.org/10.5715/jnlp.29.1043

ジャーナルフリー

PDF形式でダウンロード (354K)

J-STAGEへの登録はこちら（無料）