自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
31 巻, 2 号
選択された号の論文の30件中1~30を表示しています
巻頭言(査読無)
一般論文(査読有)
  • Zizheng Zhang, Masato Mita, Mamoru Komachi
    2024 年 31 巻 2 号 p. 328-348
    発行日: 2024年
    公開日: 2024/06/15
    ジャーナル フリー

    Cloze tests play an essential role in language assessment and help language learners improve their skills. In this paper, we propose a novel task called Cloze Quality Estimation (CQE)—a task of evaluating whether a cloze test is of sufficient “high-quality” for language assessment based on two important factors: reliability and sufficiency. We have taken the first step by creating a new dataset named CELA for the CQE task, which includes English cloze tests and corresponding evaluations about their quality annotated by native English speakers, which includes 2,597 and 1,730 instances in aspects of reliability and sufficiency, respectively. We have tested baseline evaluation methods on the dataset, showing methods that only focused on the options would not perform well in the challenging task, especially in the aspect of reliability detection. More features such as context of questions are expected to improve the detection performance.

  • 樽本 空宙, 畠垣 光希, 宮田 莉奈, 梶原 智之, 二宮 崇
    2024 年 31 巻 2 号 p. 349-373
    発行日: 2024年
    公開日: 2024/06/15
    ジャーナル フリー

    本研究では,系列変換タスクにおいて ChatGPT の日本語生成能力を評価する.ChatGPT は対話形式で様々な自然言語処理タスクに対処可能な大規模言語モデルであり,その言語生成能力の高さは英語では様々なタスクにおいて定量的に評価されている.しかし,日本語における ChatGPT の性能はまだ充分に評価されていない.本論文では,代表的な系列変換タスクである機械翻訳・自動要約・テキスト平易化の各タスクにおいて,既存の教師あり手法と比較しつつ ChatGPT の日本語生成能力を評価した結果を報告する.実験の結果,ChatGPT はいずれのタスクにおいても自動評価では既存の教師ありモデルの性能を下回ったものの,人手評価では既存の教師ありモデルの性能を上回る傾向にあった.また,出力文を詳細に分析したところ,ChatGPT は全体に高品質な日本語文を出力しているが,各タスクの詳細な要請に一部応えられていないという課題が明らかになった.

  • Hiroyuki Deguchi, Taro Watanabe, Yusuke Matsui, Masao Utiyama, Hideki ...
    2024 年 31 巻 2 号 p. 374-406
    発行日: 2024年
    公開日: 2024/06/15
    ジャーナル フリー

    k nearest neighbor machine translation (kNN-MT) (Khandelwal et al. 2021) boosts the translation quality of trained neural machine translation (NMT) models by incorporating an example search into the decoding algorithm. However, decoding is seriously time-consuming, that is, roughly 100 to 1,000 times slower than that of standard NMT, because neighbor tokens are retrieved from all the target tokens of parallel data in each timestep. In this paper, we propose “Subset kNN-MT”, which improves the decoding speed of kNN-MT using two methods: (1) retrieving neighbor target tokens from a subset that is the set of neighbor sentences of the input sentence, not from all sentences, and (2) efficient distance computation technique suitable for subset neighbor search using a look-up table. Our subset kNN-MT achieved a speed-up of up to 134.2 times and an improvement in the BLEU score of up to 1.6 compared with those of kNN-MT in the WMT’19 De-En translation task, domain adaptation tasks in De-En and En-Ja translations, and the Flores101 multilingual translation task.

  • Kosuke Nishida, Naoki Yoshinaga, Kyosuke Nishida
    2024 年 31 巻 2 号 p. 407-432
    発行日: 2024年
    公開日: 2024/06/15
    ジャーナル フリー

    Although named entity recognition (NER) assists in extracting domain-specific entities from text (e.g., artists in the music domain), it is expensive to create a large amount of training data or structured knowledge base to perform accurate NER in the target domain. Here, we propose a self-adaptive NER that retrieves external knowledge from unstructured text to learn the usage of entities that have not been learned well. To retrieve useful knowledge for NER, we designed an effective two-stage model that retrieved unstructured knowledge using uncertain entities as queries. Our model predicts the entities in the input and then identifies entities whose predictions are not confident. It then retrieves knowledge by using these uncertain entities as queries and concatenates the retrieved text with the original input to revise the prediction. Experiments on CrossNER datasets demonstrated that our model outperforms strong baselines using 2.35 points in the F1-metric. We confirmed that knowledge retrieval is important for the NER task and that retrieval based on prediction confidence is particularly useful when the model has long-tail entity knowledge through pre-training.

  • 大羽 未悠, 栗林 樹生, 大内 啓樹, 渡辺 太郎
    2024 年 31 巻 2 号 p. 433-455
    発行日: 2024年
    公開日: 2024/06/15
    ジャーナル フリー

    ニューラル言語モデルの成功を踏まえ,言語モデルの言語獲得について関心が高まっている.既存研究では,主に人間と言語モデルの第一言語獲得に焦点が当てられていたが,本研究では言語モデルの第二言語獲得にスコープを当てた調査を行う.具体的には,人間の第二言語獲得と同様のシナリオでバイリンガル言語モデルを学習し,その言語間転移について言語学的観点から分析する.実験の結果から,第一言語での事前学習は第二言語の言語的汎化を促進し,第一言語となる言語,第二言語学習時の対訳テキストの有無などといった言語間転移の設定が汎化の促進に異なる影響を与えることが示された.これらの知見により,言語モデルの言語間転移について,人間の第二言語獲得との類似点や相違点が多角的に明らかになった.

  • 谷 和樹, 田村 晃裕, 梶原 智之, 二宮 崇, 加藤 恒夫
    2024 年 31 巻 2 号 p. 456-478
    発行日: 2024年
    公開日: 2024/06/15
    ジャーナル フリー

    本研究では,目的言語文の難易度を多段階で制御する日英機械翻訳(日英 Multi-Level Complexity-Controllable Machine Translation: 日英 MCMT)の実現を目指す.従来の MCMT の研究では英語とスペイン語の言語対を対象にしていたため,日英 MCMT 用の評価データセットは存在しない.そこで本研究では,多段階の難易度で書かれた英語ニュース記事集合である Newsela コーパスと日本語への人手翻訳によって日英 MCMT 用の評価データセットを構築する.また,MCMT は同じ原言語文に対して難易度に応じて異なる目的言語文を出力する必要があるが,従来の MCMT の学習手法は,難易度が付いた対訳文対の単位で学習を行っており,難易度が異なる同一内容の目的言語文間を対比させた学習ができない.そこで本研究では,学習対象の参照文と共に異なる難易度の参照文も使い,学習対象の参照文に対する損失が学習対象以外の難易度の参照文に対する損失よりも小さくなるように学習を行う手法を提案する.本研究で構築した評価データセットを用いた実験により,提案手法は従来手法のマルチタスクモデルより BLEU が 0.94 ポイント上回ることを確認した.

  • 白井 圭佑, 亀甲 博貴, 森 信介
    2024 年 31 巻 2 号 p. 479-503
    発行日: 2024年
    公開日: 2024/06/15
    ジャーナル フリー

    機械による手順書理解は,文章中の手順に関する推論やこれらを元にした作業の自動化に必須である.先行研究では調理分野に焦点を当て,調理レシピの理解の表現としてレシピフローグラフ (recipe flow graph; r-FG) を提案し,そのアノテーションを作成した.r-FG は手順に関わる表現をノードとし,それらの関係をエッジとする有向非巡回グラフとして定義される.先行研究では,r-FG の自動予測のフレームワークとして,ノード予測とエッジ予測の 2 段階で行うものが提案されている.一方で,r-FG は調理分野に依存した表現となっており,調理以外の分野には適用されてこなかった.本論文では,一般的な手順書の理解の表現として wikiHow フローグラフ (wikiHow flow graph; w-FG) を提案する.w-FG は r-FG と互換性があり,既存の r-FG のアノテーションは w-FG に自動変換可能である.w-FG を用いて一般的な分野の手順書のフローグラフ予測精度を調査するために,wikiHow の記事を基に新たなコーパスである w-FG コーパスを構築する.実験では,調理分野から対象分野への分野適応を行うことで,ノード予測を 75.0% 以上,エッジ予測を 61.8% 以上のF値で行えることを示す.

  • 石渡 太智, 後藤 淳, 山田 寛章, 徳永 健伸
    2024 年 31 巻 2 号 p. 504-533
    発行日: 2024年
    公開日: 2024/06/15
    ジャーナル フリー

    ソーシャルメディアでの感情分析や感情的かつ共感的な対話システムの構築を目的として,対話における発話の感情認識 ERC: Emotion Recognition in Conversations が注目を集めている.ERC では,似た内容を示す発話でも一連の発話の内容(文脈)に応じて異なる感情を示すことが知られている.文脈を把握する代表的な手法として,一連の発話を連結し識別モデルに入力する手法がある.この従来手法は,識別対象の発話とその先行文脈(対話)を入力し,識別モデル単体で対象の発話の感情ラベルを予測する特徴を持つ.本研究は,モデル外部のデータベースを活用して従来の識別モデルを補強する方法を提案する.具体的には,識別対象の発話と,意味的に近い発話を訓練セットから検索し,検索した発話(近傍事例)に付与された感情ラベルを基に確率分布を作成して,従来の識別モデルの確率分布と重み付き線形和によって組み合わせる.さらに本手法は,定数による重み付き線形和だけでなく,識別対象の発話ごとに動的に重み係数を変更する方法を提案する.評価実験において,ERC における 3 つのベンチマークデータで,動的に重み係数を変更する提案手法が,従来手法を上回る最高水準の認識性能を示した.

  • Masato Neishi, Naoki Yoshinaga
    2024 年 31 巻 2 号 p. 534-567
    発行日: 2024年
    公開日: 2024/06/15
    ジャーナル フリー

    Recent trends in the pre-training and fine-tuning paradigm have made significant advances in several natural language processing tasks, including machine translation (MT), particularly for low-resource situations. However, it is reported that leveraging out-of-domain data is not as effective, or sometimes even harmful, in MT tasks in high-resource situations, where further improvement is still needed. In this study, we focus on domain-specific dedicated neural machine translation (NMT) models, which still have the advantage in a high-resource situation as concerns translation quality and inference cost. We revisit the in-domain pre-training of embedding layers in Transformer-based NMT models, in which the embeddings are pre-trained with the same training data as the target translation task, considering the large impact of the domain discrepancy between the pre-training and fine-tuning (or training) in MT tasks. Experiments on two translation tasks, ASPEC English-to-Japanese and WMT2017 English-to-German, demonstrate that the in-domain pre-training of embedding layers in a Transformer-based NMT model provides performance improvement without any negative impact and contributes to earlier convergence in training. Through additional experiments, we confirmed that pre-training of the embedding layer of the encoder is more important than that of the embedding layer of the decoder, and the impact does not vanish as the training data size is increased. An analysis of the embeddings revealed the large impact of the pre-training of the embedding layers on the low-frequency tokens.

  • 石井 佑樹, 佐々木 稔
    2024 年 31 巻 2 号 p. 568-589
    発行日: 2024年
    公開日: 2024/06/15
    ジャーナル フリー

    自然言語処理技術を開発する上でシソーラスから得られる意味知識は有用であり,現在までに日本語では単語同士を対象として上位下位関係や同義関係,類義関係等の獲得を目的とした研究が行われている.しかし,既存研究では主に単語間の関係を検出することに注目し,語義を対象とした類義関係の検出は行われていない.この問題に対処するため,本研究では日本語辞書に記述された語義定義文と Sentence-BERT を用いた類義判定手法を提案する.単語間の類義関係に着目し,「うまい」の語義「よい。すぐれている。」と「じょうず」の語義「ある物事をする技術がすぐれていること。」の様な単語の語義を対象に類義であるか否かの類義判定を行う.岩波国語辞典の見出し語,語義定義文及び分類語彙表の分類番号を用いて作成した評価データセットを対象として,学習データを用いて fine-tuning した類義判定モデルによる類義判定実験を行った.実験の結果,提案手法における Sentence-BERT や変更した語義定義文を用いることによって,ベースライン手法よりも効果的に類義判定ができることを示した.

  • 宮田 莉奈, 惟高 日向, 山内 洋輝, 柳本 大輝, 梶原 智之, 二宮 崇, 西脇 靖紘
    2024 年 31 巻 2 号 p. 590-609
    発行日: 2024年
    公開日: 2024/06/15
    ジャーナル フリー

    本研究では,テキスト平易化のための日本語パラレルコーパスを構築し,公開した.本タスクにおける既存の日本語コーパスとしては,非専門家によって構築されたものが訓練に使用されており,専門家によって構築された高品質かつ大規模なものは存在しない.我々は,専門家により平易化された記事に対して人手で文アライメントを行うことで,大規模な文単位のパラレルコーパスを構築した.人手評価の結果,専門家によって平易化されたパラレルコーパスは,非専門家が平易化したものに比べて多様な平易化操作を含んでいることが明らかになった.また,我々の構築したパラレルコーパスは,流暢かつ意味を保持した平易化が行われていることを確認した.

  • 南端 尚樹, 田村 晃裕, 加藤 恒夫
    2024 年 31 巻 2 号 p. 610-636
    発行日: 2024年
    公開日: 2024/06/15
    ジャーナル フリー

    ニューラル機械翻訳 (NMT) において,固有表現 (NE) の情報を活用することで翻訳性能が改善されている.これまでNEを活用するNMTモデルとして,NE タグを文中に挿入する「タグ付けモデル」と,NE埋め込みを単語埋め込みに加える「埋め込みモデル」が提案されている.埋め込みモデルは,原言語文のNE情報に加えて目的言語文の NE 情報を活用することで翻訳性能が改善されている.しかし,従来のタグ付けモデルは原言語文の NE 情報しか活用していない.そこで本研究では,原言語文と目的言語文の両方の NE 情報を活用するタグ付けモデルを提案する.さらに,このタグ付けモデルの性能を改善するため,埋め込みモデルとのアンサンブルにより翻訳を行う NMT モデルを提案する.提案のアンサンブルモデルでは,タグ付けモデルと埋め込モデルによる出力確率を平均した確率に基づき目的言語文を生成する.WMT2014 英独・独英翻訳タスク及び WMT2020 英日・日英翻訳タスクで提案モデルを評価した結果,従来のタグ付けモデルと比較して,英独翻訳では最大 0.76 ポイント,独英翻訳では最大 1.59 ポイント,英日翻訳では最大 0.96 ポイント,日英翻訳では最大 0.65 ポイント BLEU が向上することを確認した.

  • 杉本 智紀, 尾上 康雅, 谷中 瞳
    2024 年 31 巻 2 号 p. 637-679
    発行日: 2024年
    公開日: 2024/06/15
    ジャーナル フリー

    時間に関する自然言語推論である時間推論は,テンス・アスペクトなどの様々な時間に関する言語現象が複雑に作用し合うため,挑戦的なタスクである.言語モデルの時間推論能力を評価するためにこれまで様々なデータセットが構築されてきたが,既存の時間推論データセットは主に英語であり,また,一部の言語現象のみに焦点を当てている.そのため,日本語言語モデルが,多様な時間推論に対する汎化能力をどの程度有しているかは非自明である.そこで本研究では,様々な時間推論パターンを含む日本語時間推論ベンチマークJamp_sp (Controlled Japanese Temporal Inference Dataset Considering Aspect) を構築する.Jamp_sp の学習データとテストデータは時間推論パターンや時間表現の形式といった問題の属性に基づいて制御できるため,言語モデルの汎化能力についての詳細な分析が可能になる.実験では,分割前の学習データや分割後の学習データの一部を用いて言語モデルを学習し,テストデータ上で評価することで,言語モデルの汎化能力を評価する.実験の結果,識別系言語モデルだけでなく,GPT-4 といった最新の生成系言語モデルにとってもJamp_sp は挑戦的なデータセットであり,それらのモデルの汎化能力に改善の余地があることが示された.

  • 宮野 稜大, 梶原 智之, 荒瀬 由紀
    2024 年 31 巻 2 号 p. 680-706
    発行日: 2024年
    公開日: 2024/06/15
    ジャーナル フリー

    言語生成では,生成文の品質を改善する手法としてモデルが出力した上位 N 個の仮説を再びスコア付けしリランキングする手法が用いられる.リランキング手法は,N ベスト出力の中により高品質な仮説が存在することを前提としている.我々はこの前提をより現実的なものに拡張し,N ベスト出力の中には部分的に高品質な仮説が存在するが,その仮説は文全体としては不完全な可能性があると仮定する.本研究ではNベスト出力に含まれる高品質な断片を統合することで,文全体としても高品質な出力を生成する手法を提案する.具体的には,言語生成モデルの N ベスト出力を用いてトークンの正誤予測を行い,誤りと予測されたトークンを負の制約,正しいと予測されたトークンを正の制約として,語彙制約を適用して再度デコードする.これにより,N ベスト出力に含まれていた正しいトークンを含みつつ,誤りを避けた文を生成する.言い換え,要約,翻訳,制約付きテキスト生成における評価実験により,言い換えおよび要約において本手法が強力な N ベスト出力リランキング手法を上回ることが確認された.

  • 永渕 景祐, 木村 泰知, 門脇 一真, 荒木 健治
    2024 年 31 巻 2 号 p. 707-732
    発行日: 2024年
    公開日: 2024/06/15
    ジャーナル フリー

    本研究では,Web 上に公開されている国会および地方議会の会議録を収集し,大規模な会議録コーパスを構築した.また,会議録コーパスを用いて,いくつかの派生系を含む日本語の政治ドメインに適応した事前学習済み言語モデルを構築した.政治ドメインのタスクでは,提案モデルは従来のモデルよりも優れた性能を示し,汎用ドメインのタスクでも,提案モデルは従来のモデルに匹敵する性能を示した.また,追加の事前学習によるドメイン適応において,学習ステップ数の増加が性能の向上に影響を大きく与えていることや,最初の事前学習で用いたコーパスも併用することで,非適応ドメインの性能を維持しつつ適応ドメインにおける性能を向上させることが可能であることを示した.

学会記事(査読無)
後付記事(査読無)
feedback
Top