自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
最新号
選択された号の論文の19件中1~19を表示しています
巻頭言(査読無)
一般論文(査読有)
  • Zhiyang Qi, Michimasa Inaba
    2025 年32 巻4 号 p. 1030-1061
    発行日: 2025年
    公開日: 2025/12/15
    ジャーナル フリー

    Spoken dialogue systems (SDSs) often encounter significant challenges when interacting with users who exhibit unique conversational behaviors, such as minors, particularly in low-resource environments with limited data availability. To address these challenges, we present a novel data augmentation framework for enhancing SDS performance, particularly when handling such user groups. The framework employs large language models to extract and model speaker styles and leverages pre-trained language models to simulate diverse dialogue act (DA) histories, ultimately creating a rich and personalized set of training data. By focusing on both the unique speaking styles and distinctive dialogue behavior trajectories of users, the framework improves DA prediction accuracy, thereby guiding the SDS to more effectively adapt to low-resource users with specialized conversational characteristics. Extensive experiments conducted in low-resource settings validate the effectiveness of this approach, demonstrating its potential to improve SDS adaptability and foster the development of more inclusive and responsive systems.

  • Ryoma Ishigaki, Jundai Suzuki, Masaki Shuzo, Eisaku Maeda
    2025 年32 巻4 号 p. 1062-1102
    発行日: 2025年
    公開日: 2025/12/15
    ジャーナル フリー

    Large Language Models (LLMs) possess potentially extensive knowledge; however, because their internal processing operates as a black box, directly editing the knowledge embedded within the LLMs is difficult. To address this issue, a method known as local-modification-based knowledge editing has been developed. This method identifies the “knowledge neurons” that encode the target knowledge and adjusts the parameters associated with these neurons to update the stored information. Knowledge neurons are identified by masking the object (o) from sentences representing relational triplets (s, r, o), with the LLM predicting the masked element, and observing its internal activation patterns during the prediction. When the architecture is decoder-based, the predicted object (o) must be located at the end of the sentence. Previous local-modification-based knowledge-editing methods for decoder-based models have assumed subject-verb-object languages and faced challenges when applied to subject-object-verb languages such as Japanese. In this study, we propose a knowledge-editing method that eliminates the need for word order constraints by converting the input used to identify knowledge neurons into a question, where object (o) is the answer. We conducted validation experiments using a known-facts dataset and confirmed that the proposed method is effective for Japanese language, which is a non- subject-verb-object language.

  • 片山 歩希, 東山 翔平, 大内 啓樹, 坂井 優介, 竹内 綾乃, 坂東 諒, 橋本 雄太, 小木曽 智信, 渡辺 太郎
    2025 年32 巻4 号 p. 1103-1128
    発行日: 2025年
    公開日: 2025/12/15
    ジャーナル フリー

    歴史的テキストからの場所参照表現の抽出は,大規模な史料に対する人文学的分析を支援するための基盤技術として重要である.本研究では,近世・近代日本語紀行文の場所参照表現抽出ラベル付きデータを構築するとともに,既存の近世災害記録,現代旅行記のラベル付きデータを活用し,これら近世・近代・現代の 3 時代のテキストに対する現代語 Transformer 言語モデル(マスク言語モデル,自己回帰言語モデル)による場所参照表現抽出精度を調査した.実験から,歴史的テキストからの抽出において現代語ラベル付きデータを活用することの有効性を確認した.一方で,現代語テキストで高い抽出精度(最大 F1 値 0.890)が達成されたのに対し,歴史的テキストでは低~中程度の精度(最大 F1 値 0.506–0.739)となり,現代語向けモデルの歴史的テキストへのより良い適応のために,さらなる手法の改善が必要であることも示された.

  • Adam Nohejl, Akio Hayakawa, Yusuke Ide, Taro Watanabe
    2025 年32 巻4 号 p. 1129-1188
    発行日: 2025年
    公開日: 2025/12/15
    ジャーナル フリー

    Lexical simplification (LS) is the task of making text easier to understand by replacing complex words with simpler equivalents. LS involves the subtask of lexical complexity prediction (LCP). We present MultiLS-Japanese, the first unified LS and LCP dataset targeting non-native Japanese speakers, and one of the ten language-specific MultiLS datasets. We propose methods for LS and LCP based on large language models (LLMs) that outperform existing LLM-based methods on 7 and 8 of the 10 MultiLS languages, respectively, while using only a fraction of their computational cost. Our methods rely on a single prompt across languages and introduce a novel calibrated token-probability scoring technique, G-Scale, for LCP. Our ablations confirmed the benefits of G-Scale and of concrete wording in the LLM prompt. We made the MultiLS-Japanese dataset available online under a CC-BY-SA license, including detailed metadata.

  • 木山 朔, 相田 太一, 小町 守, 小木曽 智信, 高村 大也, 持橋 大地
    2025 年32 巻4 号 p. 1189-1240
    発行日: 2025年
    公開日: 2025/12/15
    ジャーナル フリー

    単語の意味や関係性は時間とともに変化する.この現象を単語の通時的な意味変化という.複数時期にわたってどのように意味が変化するのかの理解を目的とした研究は,意味変化の詳細な分析にとって重要である.しかし,隣接する時点間の変化点のみを検出する方法では,詳細な意味変化の分析には不十分である.また,BERTに基づく手法を用いて語義の割合を解析する方法には,計算コストが高くなるという問題が生じる.これらの課題に対処するために,本研究では軽量かつ高速な単語埋め込みを使用し,単語埋め込みに基づく単語の通時的な類似度行列を利用することで,複数の時系列にわたって意味変化のパターンを捉えるフレームワークを提案する.任意の単語に対して,時系列の各時点間で埋め込み間の類似度を算出することで,その類似度の変化パターンを意味変化のパターンとみなし,分析を行うことが可能となる.また,得られた複数の単語の類似度行列をクラスタリングすることにより,教師なしで類似度行列のパターンが似ている単語を算出できる.分析結果より,意味変化している単語と同じパターンである単語や,社会的な要因によって変化したと考えられる単語と同じパターンである単語をグループ化できることを示した.また,英語と日本語のデータセットに対して,複数の時期間隔において実験を行い,フレームワークの有効性とその限界について議論した.

  • 沼屋 征海, 守屋 彰二, 佐藤 志貴, 赤間 怜奈, 鈴木 潤
    2025 年32 巻4 号 p. 1241-1271
    発行日: 2025年
    公開日: 2025/12/15
    ジャーナル フリー

    対話応答生成の分野において,背景情報や対話履歴を活用して,ユーザ個人の嗜好に合わせた応答生成の実現を目的とするパーソナライゼーションが注目されている.先行研究において,応答内容の適応だけでなく,システムがユーザと類似した発話スタイルを用いることが,ユーザの好感度を高める要因になることが示唆されている.しかしながら,スタイル類似に関する評価の多くは,対話の当事者ではない第三者による客観的な評価が用いられており,ユーザ自身の知覚に基づく主観的な評価との違いが十分に検討されていない.本研究では,非タスク指向の対話設定を対象とし,英語と日本語の両言語において,主観的・客観的スタイル類似度およびユーザによる対話の好ましさに関する人手評価を付与した新たなデータセットを構築した.分析の結果,ユーザによって知覚されたスタイル類似度は対話の好ましさと高い正の相関を示した一方で,客観的なスタイル類似度との間には明確な相関が見られなかった.本研究は,パーソナライゼーションにおけるスタイル評価において,評価主体の切り分けの必要性を示す経験的知見を提供する.

  • 西田 悠人, 森下 睦, 出口 祥之, 上垣外 英剛, 渡辺 太郎
    2025 年32 巻4 号 p. 1272-1298
    発行日: 2025年
    公開日: 2025/12/15
    ジャーナル フリー

    検索拡張言語モデルの一つである kNN 言語モデルは,任意のテキストデータから構築された大規模なデータストアに推論時に直接アクセスすることで,文脈を適切に把握し,言語らしさを高精度に予測可能であることが報告されている.kNN 言語モデルは明示的な記憶であるデータストアの活用によって低頻度現象の予測性能を改善できるという仮説が提唱されてきたが,既存の検証では主に低頻度の文脈の検索性能に焦点が当てられ,低頻度語の予測性能については十分に検討されてこなかった.本研究では,kNN 言語モデルが低頻度語に対してどのように振る舞うかを,予測確率や検索精度,データストア内におけるトークンの幾何的な分布,直積量子化による近似誤差の観点から詳細に分析した.実験の結果,kNN 言語モデルは低頻度語の予測性能の改善に寄与せず,むしろ高頻度語の予測を改善することを示した.

学会記事(査読無)
後付記事(査読無)
feedback
Top