自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
最新号
選択された号の論文の24件中1~24を表示しています
巻頭言(査読無)
一般論文(査読有)
  • Yuka Ko, Ryo Fukuda, Yuta Nishikawa, Yasumasa Kano, Katsuhito Sudoh, S ...
    2025 年 32 巻 2 号 p. 404-437
    発行日: 2025年
    公開日: 2025/06/15
    ジャーナル フリー

    Simultaneous speech translation (SimulST) translates speech incrementally, requiring a monotonic input-output correspondence to reduce latency. This is particularly challenging for distant language pairs, such as English and Japanese, as most SimulST models are trained using offline speech translation (ST) data, where the entire speech input is observed during translation. In simultaneous interpretation (SI), a simultaneous interpreter translates source language speech into target language speech without waiting for the speaker to finish speaking. Therefore, the SimulST model can learn SI-style translations using SI data. However, owing to the limited availability of SI data, fine-tuning an offline ST model using SI data may result in overfitting. To address this problem, we propose an efficient training method for the speech-to-text SimulST model using a combination of small SI and relatively large offline ST data. We trained a single model with mixed data by incorporating style tags to instruct the model to generate either SI or offline-style outputs. This approach, called mixed fine-tuning with style tags, can be extended further using the multistage self-training approach. In this case, we use the trained model to generate pseudo-SI data. Our experimental results for several test sets demonstrated that our models trained using mixed fine-tuning and multistage self-training outperformed baselines across various latency ranges.

  • Kosuke Doi, Katsuhito Sudoh, Satoshi Nakamura, Taro Watanabe
    2025 年 32 巻 2 号 p. 438-479
    発行日: 2025年
    公開日: 2025/06/15
    ジャーナル フリー

    In foreign language learning, writing tasks play a crucial role in developing and assessing learners’ language abilities, but manual scoring requires significant time and effort. Automated essay scoring (AES) is a way to mitigate this problem. Although human raters consider grammatical items and their difficulties as clues for judging learners’ proficiency levels while scoring essays, it is unclear whether the current state-of-the-art AES models, which use BERT-based essay representations, consider these factors. In this paper, we propose to incorporate grammatical features into BERT-based AES models in three ways: (1) using grammatical features as additional model inputs, (2) performing multi-task learning (MTL) with holistic and grammar scores while using grammatical features as model inputs, and (3) reconstructing grammatical features through MTL with holistic scores. For grammatical features, we model learners’ grammar usage using item response theory (IRT), which measures learners’ grammar abilities and characteristics of grammatical items, including their difficulties, based on essay data without teacher labels. The experimental results show that grammatical features improve the scoring performance, and further improvements are brought by MTL with holistic and grammar scores. We also show that weighting grammatical items using IRT-estimated difficulties improve the scoring performance, and IRT-estimated grammar abilities can be used for the labels of MTL.

  • 大井 聖也, 金子 正弘, 小池 隆斗, Mengsay Loem, 岡崎 直観
    2025 年 32 巻 2 号 p. 480-496
    発行日: 2025年
    公開日: 2025/06/15
    ジャーナル フリー

    大規模言語モデル (Large Language Model; LLM) は言語生成タスクの評価器として用いられている.ところが,ある文章の意味を変えずに語順や構造を変更した文章を作ると,LLM が計算する尤度が大きく変化することがある.そのため,LLM 評価器 (LLM-as-a-Judge) には,尤度が低い文章を不当に低く,尤度が高い文章を不当に高く評価する尤度バイアスが存在する可能性がある.本研究では,尤度バイアスが LLM 評価器の性能を低下させることを明らかにし,Few-shot によるバイアス緩和手法を提案する.実験では,複数の LLM が data-to-text タスクと文法誤り訂正タスクで尤度バイアスを持つ可能性を示した.また,バイアスの強い事例を特定し Few-shot 事例として用いることで,バイアスの緩和に成功した.さらに,尤度バイアスの緩和によって LLM 評価器の評価性能(人手評価との順位相関係数)が向上することを確認し,提案手法の有効性を示した.

  • 植松 拓也, 王 昊, 福田 創, 河原 大輔, 柴田 知秀
    2025 年 32 巻 2 号 p. 497-519
    発行日: 2025年
    公開日: 2025/06/15
    ジャーナル フリー

    高性能かつ頑健な言語処理モデルを構築するために,多様な質問応答 (QA) データセットにおける訓練,評価,分析が重要である.しかし,多様な QA データセットが存在する言語は英語だけであり,他の言語では少数の QA データセットしか存在しない.我々は,少数の基本的な QA データセットしか存在しない日本語を対象とし,人間の情報欲求から自然に発生する質問からなる Natural Questions (NQ) の日本語版を構築する.自然な質問を収集するために検索エンジンのクエリログを用い,アノテーションのコストを低減するためにクラウドソーシングを用いて,Japanese Natural Questions (JNQ) を構築した.また,NQ の派生で yes/no 質問からなる BoolQ の日本語版 Japanese BoolQ (JBoolQ) を構築した.どちらのデータセットを構築する際においても,より良いデータセットを得るために,オリジナルの NQ もしくは BoolQ のデータセット仕様を再定義した.JNQ は 16,641 質問文,JBoolQ は 6,467 質問文からなる.さらに,JNQ から 3 つのタスク,JBoolQ から一つのタスクを定義し,それぞれのベースラインモデルを作成し評価した.これらのデータセットにより,日本語における QA モデルや言語処理モデルの研究が促進されることが期待される.

  • 森下 皓文, 森尾 学, 山口 篤季, 十河 泰弘
    2025 年 32 巻 2 号 p. 520-571
    発行日: 2025年
    公開日: 2025/06/15
    ジャーナル フリー

    大規模言語モデル (LLM) はその豊富な知識により,様々な既知の課題を解決した.しかしながら LLM は,推論を用いて新規な課題を解くことを苦手とする.我々はこの問題に対して,「ルールベースで生成した人工論理推論サンプルの学習によって,LLM の推論能力を向上させる」というアプローチを提案する.まず,「どのようなサンプルを設計すれば良いか?」という議論から始める.記号論理学や過去の哲学的論考,また近年の先行研究や我々の予備実験から得られている知見を参照しつつ,設計の指針を打ち立てていく.次に,この設計指針に基づき,多様な推論規則からなる深い推論サンプルを大量に自動生成し,人工論理推論コーパス Formal Logic Deduction Diverse (FLD×𝟚) を構築する.最後に,FLD×𝟚 での追加学習が LLM の推論能力を向上させられることを確認する.その結果,LLaMA-3.1 (8B/70B)に対して,論理推論で最大 30 ポイント,数学で最大 7 ポイント,コーディングで最大 10 ポイント,BBH ベンチマーク群で 5 ポイント,の精度向上を達成した.

  • Zihan Wang, Naoki Yoshinaga
    2025 年 32 巻 2 号 p. 572-597
    発行日: 2025年
    公開日: 2025/06/15
    ジャーナル フリー

    Esports, a sports competition on video games, has become one of the most important sporting events. Despite the large accumulation of esports play logs, only a small portion are accompanied by text commentaries that help the audience retrieve and understand the plays. In this study, we introduce the task of generating commentaries from esports game’s data records. We begin by building large-scale esports data-to-text datasets that pair structured data records with textual commentaries from a popular esports game, League of Legends. We then explore several generation models to produce game commentaries from structured data records while also examining the impact of pre-trained language models. To assess the generated commentaries, we designed evaluation metrics that focused on the unique characteristics of esports data, such as evaluating strategic depth. The experimental results of the data-to-text generation using our dataset revealed the remaining challenges of this novel task.

  • Lee Sangmyeong, Seitaro Shinagawa, Koichiro Yoshino, Satoshi Nakamura
    2025 年 32 巻 2 号 p. 598-632
    発行日: 2025年
    公開日: 2025/06/15
    ジャーナル フリー

    In the context of Real World Understanding (RWU) for vision and language (V&L) models, accurately aligning language with the corresponding visual scene is critical. Since current models typically assume language inputs to be plain text, RWU faces potential issues with structural ambiguity, where a single sentence can have multiple meanings due to various phrase structures. This paper proposes to use linguistic formalism as input, which enriches language information and addresses the issue of structural ambiguity. Our focus is on the Contrastive Language-Image Pre-training (CLIP) model, a prominent V&L model, focusing on image discrimination tasks of RWU. Our experiments test various approaches to incorporating formalism into the CLIP model, depending on the type of formalism and its processing method. We aim to determine the effectiveness of formalism in discriminating ambiguous images and identify which formalism works best. Additionally, we employ a gradient-based method to gain insights into how formalism is interpreted within the model’s architecture.

  • 岡 佑依, 柳本 大輝, 平尾 努, 西田 京介
    2025 年 32 巻 2 号 p. 633-659
    発行日: 2025年
    公開日: 2025/06/15
    ジャーナル フリー

    暗黙的談話関係認識 (IDRR) は,隣接するテキストスパン間の談話関係を識別するタスクである.しかし,IDRR で用いられる談話関係ラベルは粗い表現であり,全ての談話を網羅的に表現できているわけではない.本稿では,隣接するテキストスパン間の接続語とその談話関係ラベルの組み合わせを識別するタスク,談話関係ラベル付き接続語認識 (Implicit Sense-labeled Connective Recognition, ISCR) を提案する.ISCR は分類タスクとして扱えるが,クラス数の多さ,そしてクラス間のインスタンスの不均等な分布から,従来の分類器で解くことは難しい.そこで本稿では,ISCR をテキスト生成タスクとして扱い,エンコーダ・デコーダモデルを用いて接続語とその談話関係ラベルの両方を生成する.PDTB-3.0,PDTB-2.0 において,従来の分類器と2種類の生成法で比較実験から,生成法が有効であることがわかった.

  • 大村 舞, 川端 良子, 小西 光, 浅原 正幸, 竹内 誉羽
    2025 年 32 巻 2 号 p. 660-678
    発行日: 2025年
    公開日: 2025/06/15
    ジャーナル フリー

    本研究では,クラウドソーシングを用いて位置情報および経路情報を参照する表現のデータベースを構築し,これらをオープンデータとして公開した.20 の地図を刺激として使用し,位置情報については 1 地図あたり 40 人に目標点の位置情報を記述させ,800 の参照表現を収集した.一方,経路情報については 1 地図あたり 2 経路を設定し,1 経路あたり 40 人に 2 地点間の経路情報を記述させ,1,600 の参照表現を収集した.いずれの情報も,地図上のランドマークに基づく相対参照表現のみであるかを判定し,位置情報参照表現では一人称視点・空間内視点・空間内移動・鳥瞰視点の 4 つに分類,経路情報参照表現では始点・通過地点・終点の情報の有無をラベル付けした.また,各表現のわかりやすさについてアンケート調査を実施し,データとして収集した.

学会記事(査読無)
賛助会員記事(査読無)
後付記事(査読無)
feedback
Top