自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
最新号
選択された号の論文の26件中1~26を表示しています
巻頭言(査読無)
一般論文(査読有)
  • Dongyuan Li, Ying Zhang, Yusong Wang, Kotaro Funakoshi, Manabu Okumura
    2024 年 31 巻 3 号 p. 825-867
    発行日: 2024年
    公開日: 2024/09/15
    ジャーナル フリー

    Speech emotion recognition (SER) has garnered increasing attention due to its wide range of applications in various fields, including human-machine interaction, virtual assistants, and mental health assistance. However, existing SER methods often overlook the information gap between the pre-training speech recognition task and the downstream SER task, resulting in sub-optimal performance. Moreover, current methods require much time for fine-tuning on each specific speech dataset, such as IEMOCAP, which limits their effectiveness in real-world scenarios with large-scale noisy data. To address these issues, we propose an active learning (AL)-based fine-tuning framework for SER, called After, that leverages task adaptation pre-training (TAPT) and AL methods to enhance performance and efficiency. Specifically, we first use TAPT to minimize the information gap between the pre-training speech recognition task and the downstream speech emotion recognition task. Then, AL methods are employed to iteratively select a subset of the most informative and diverse samples for fine-tuning, thereby reducing time consumption. Experiments demonstrate that our proposed method After, using only 20% of samples, improves accuracy by 8.45% and reduces time consumption by 79%. The additional extension of After and ablation studies further confirm its effectiveness and applicability to various real-world scenarios.

  • Kosuke Doi, Katsuhito Sudoh, Satoshi Nakamura
    2024 年 31 巻 3 号 p. 868-893
    発行日: 2024年
    公開日: 2024/09/15
    ジャーナル フリー

    This paper describes the development of a large-scale English-Japanese simultaneous interpretation corpus named NAIST-SIC and presents analyses of it. We collected the recordings of simultaneous interpreting sentences (SIsent). To understand the characteristics of simultaneous interpreting by human simultaneous interpreters (SIers), we analyzed a subset of this corpus. Samples of speech were interpreted by three SIers having different levels of experience and can be used to compare SIsent attributes in terms of the SIers’ experience. Using this corpus subset, we analyzed the differences in latency, quality, and word order. The results show that (1) SIers with more experience tended to generate a higher quality of SIsent, and (2) they better controlled the latency and quality. We also observed that (3) a large latency degraded the SIsent quality.

  • 石川 和樹, 小川 浩平, 佐藤 理史
    2024 年 31 巻 3 号 p. 894-934
    発行日: 2024年
    公開日: 2024/09/15
    ジャーナル フリー

    日本語のライトノベルでは,登場人物毎に異なる口調(話し方のスタイル)を用い,その口調によってセリフの話者を暗示させる技法がしばしば用いられる.「セリフの書き分け」と呼ばれるこの小説技法は,多くの口調が存在するという日本語の話し言葉の特徴を利用している.この技法が使われる小説では,地の文を主要な手がかりとする話者推定法だけでは,正しい話者を推定することが難しい.本研究では,口調を利用した話者推定を実現するために,以下のことを行った.(1) 小説のセリフを,その口調の特徴を埋め込んだベクトル(口調ベクトル)に変換する口調エンコーダを提案した.(2) 口調エンコーダを利用して,セリフの話者を自動同定する手法(口調に基づく話者同定)を提案した.(3) この手法の前段に話者候補生成モジュールをつなげた話者推定システムを実装した.このシステムを用いて 5 つの作品に対して話者推定実験を行い,4 つの作品に対してベースラインを上回る結果を得た.

  • Zhengdong Yang, Shuichiro Shimizu, Chenhui Chu, Sheng Li, Sadao Kuroha ...
    2024 年 31 巻 3 号 p. 935-957
    発行日: 2024年
    公開日: 2024/09/15
    ジャーナル フリー

    Speech-to-text translation (ST) translates speech from the source language into text in the target language. Because ST deals with different forms of language, it faces a language style gap between spoken and written language. The gap lies not only between the input speech and the output text but also between the input speech and the bilingual parallel corpora that are often used in ST. These gaps become an obstacle to improving the performance of ST. Spoken-to-written style conversion has been proven to improve cascaded Japanese-English ST by reducing such gaps. Integrating this conversion into end-to-end ST is desirable because of its ease of deployment, improved efficiency, and reduced error propagation compared to cascaded ST. In this study, we construct a large-scale Japanese-English lecture domain ST dataset. We also propose a joint task of speech-to-text spoken-to-written style conversion and end-to-end ST, as well as an interactive-attention-based multi-decoder model for the joint task to improve end-to-end ST. Experiments on the constructed dataset show that our model outperforms a strong baseline.

  • 高萩 恭介, 古宮 嘉那子, 新納 浩幸
    2024 年 31 巻 3 号 p. 958-983
    発行日: 2024年
    公開日: 2024/09/15
    ジャーナル フリー

    Data Augmentation は,教師あり学習におけるモデルの性能を改善させるために,訓練データを水増しする手法である.Data Augmentation は,Computer Vision の分野において広く研究・利用されているが,自然言語処理においては未発展であるといえる.本論文では,我々がこれまでに考案した日本語の自然言語処理タスクに用いることができる Data Augmentation の手法を二つ取り上げる.一つは,文に含まれる単語を,BERT の Masked Language Modeling を用いて別の単語に置換する手法である.もう一つは,文の係り受け関係が崩れないように文節の順序をシャッフルする手法である.これら 2 つの手法の概要や変換方法について示した後,各手法がどのようなタスクで効果を発揮するのかについて述べる.

  • 芝原 隆善, 山田 育矢, 西田 典起, 寺西 裕紀, 古崎 晃司, 松本 裕治
    2024 年 31 巻 3 号 p. 984-1014
    発行日: 2024年
    公開日: 2024/09/15
    ジャーナル フリー

    固有表現抽出は,自然言語処理において基本的で重要なタスクである.しかし,大量の教師データを必要とする従来の固有表現抽出は,ユーザーに応じた多様な粒度のカテゴリを抽出するという実社会の需要に柔軟に対応できていない.既知語が出現する文脈を擬似教師データとして利用する弱教師あり固有表現抽出は,大規模なシソーラスと組み合わせることでこの多様なカテゴリの需要に対応できる.弱教師あり固有表現抽出の先行研究は,擬似教師データの誤りに頑健な学習法を提案してきたが,これらの学習法の結果作られたモデルには,関心のあるカテゴリと無関心なカテゴリの境界を超えて予測してしまうという副作用があった.この副作用に対し本研究では,ユーザーの関心のあるカテゴリを含むシソーラスの全カテゴリを擬似教師データ作成に活用する手法を提案し,実験を通じてシソーラスに含まれる総体的な知識の有用性を明らかにした.

  • 成田 風香, 佐藤 志貴, 徳久 良子, 乾 健太郎
    2024 年 31 巻 3 号 p. 1015-1048
    発行日: 2024年
    公開日: 2024/09/15
    ジャーナル フリー

    雑談では,感想を述べる発話が対話の盛り上がりに寄与することが知られている.しかし,話題や相手の発話に対して自然かつ共感を得られるような感想の生成は,話題や相手発話の理解に加え,それらから妥当な感想を推論するための常識的知識などの活用が求められるため,挑戦的な課題と言える.我々は,対話の話題に対する実際の人々の感想を外部情報として用いることで,対話文脈に対して適切な感想を生成できる対話システムの実現を目指す.本論文では,適切な感想の選択や,その感想を使った発話の生成をシステムに学習させることが可能な「感想付きニュース雑談コーパス」を構築した.本コーパスには,「話題であるニュース記事」,「ニュース記事に対する人の感想」,「対話」の三つ組みが 1,005 件収録されている.各対話は Wizard of Oz 法で収集され,システム役の話者は SNS に書かれた人の感想を発話に取り入れながら対話している.本コーパスを用いて,人々の感想を外部情報として発話を生成するシステムを学習した結果,従来法に比べて文脈に対して自然な発話ができ,かつ感想を含む発話を多く生成できていることが分かった.加えて,これらのシステムにより生成された発話は,雑談を盛り上げるような発話となっていることが明らかとなった.

  • Yasumasa Kano, Katsuhito Sudoh, Satoshi Nakamura
    2024 年 31 巻 3 号 p. 1049-1075
    発行日: 2024年
    公開日: 2024/09/15
    ジャーナル フリー

    In simultaneous translation, translation begins before the end of an input speech segment. Its evaluation should be conducted based on latency and quality. For users, the smallest possible latency is preferable. Most existing metrics measure latency based on the start timings of partial translations and ignore their duration. This implies that such metrics do not penalize the latency caused by a long translation output, which delays user comprehension and subsequent translations. In this paper, we propose a novel latency evaluation metric for simultaneous translation called the Average Token Delay (ATD), which focuses on the duration of partial translations. We demonstrate its effectiveness through analyses that simulate user-side latency based on the Ear-Voice Span (EVS). In our experiments, ATD had the highest correlation with EVS among the baseline latency metrics under most conditions. These results suggest that ATD provides a more accurate evaluation of latency.

  • 馬 ブン, 岸野 望叶, 古宮 嘉那子, 新納 浩幸
    2024 年 31 巻 3 号 p. 1076-1106
    発行日: 2024年
    公開日: 2024/09/15
    ジャーナル フリー

    本論文では特定の発話者に対する言語モデルの構築手法を提案する.現在,対話エージェントや RPG などのゲームのセリフにおいて,キャラクタらしい発話が求められている.しかし,特定のキャラクタに特化した言語モデルの構築を行うには,訓練データが不足している.そのため本論文では対象の発話者と同一作品に出てくる別人物の発話を,T5 を用いて対象発話者の発話風に変換し,訓練データを増補する.提案手法では,対象の発話者の発話を「タスク」の訓練データ,作中の登場人物たちの発話を「ドメイン」の訓練データとし,DAPT (domain adaptive pretraining) + TAPT (task adaptive pretraining) の手法でベースの言語モデルとなる GPT-2 に fine-tuning を行う.この際,多様な口調をモデルに区別させるために,文頭に発話者の名前を追加する.また,登場人物の発話を人手で一般的な発話に変換することで,発話者らしいキャラクタ性を含んだ文と一般的な文のペアを作成する.さらに,これらの文ペアを用いてT5を学習し,(A) 一般的な発話からキャラクタらしい発話への変換モデルと (B) キャラクタらしい発話から一般的な発話への変換モデルを作成する.モデル (A) を使って作った (1) 人手で作成した一般的な発話を対象の発話者風に変換した発話集合と,モデル (A) と (B) を使って作った (2) 対象の発話者と同一作品の登場人物の発話を対象の発話者風に変換した発話集合を対象発話者の擬似データとして扱う.7 名のキャラクタの言語モデルの平均のパープレキシティを評価したところ,GPT-2 に対象の発話者の発話のみで訓練を行った場合は 27.33 であったのに対し,提案手法を利用した場合は 21.15 となり,性能を向上させることができた.

  • 植田 暢大, 波部 英子, 松井 陽子, 湯口 彰重, 河野 誠也, 川西 康友, 黒橋 禎夫, 吉野 幸一郎
    2024 年 31 巻 3 号 p. 1107-1139
    発行日: 2024年
    公開日: 2024/09/15
    ジャーナル フリー

    実世界で人間を支援するロボットにとって,身体世界を含む状況の理解は重要な課題である.特に対話のような言語を用いたインタラクションを通じて人間との協業を行おうとする場合,ロボットの 1 人称視点の画像等から得られる情報とインタラクション中の情報における参照関係を適切に紐解かねばならない.本研究ではこうした実世界における,マルチモーダル参照解析タスクを提案し,本タスクのための参照タグ付き実世界対話データセット (J-CRe3) を構築する.本データセットには家庭内における主人とそのお手伝いロボットを想定した2者間の実世界対話動画および音声が含まれる.さらに,対話書き起こしテキスト中のメンションに 1 人称視点動画におけるフレーム内の物体領域が紐付けられている.この紐付けには直接的な参照関係だけでなく,述語と項の関係や橋渡し照応関係も含まれる.既存のテキスト間の照応解析モデルおよび画像のフレーズグラウンディングモデルを組み合わせた実験を行った結果,今回提案するタスクは,テキスト間の解析に比べテキストと物体間の関係解析が非常に困難で挑戦的な課題であることを示した.

  • Zhishen Yang, Raj Dabre, Hideki Tanaka, Naoaki Okazaki
    2024 年 31 巻 3 号 p. 1140-1165
    発行日: 2024年
    公開日: 2024/09/15
    ジャーナル フリー

    Figures in scholarly documents provide a straightforward method of communicating scientific findings to readers. Automating figure caption generation enhances model understanding of scientific documents beyond text and helps authors write informative captions. Unlike previous studies, we refer to scientific figure captioning as a knowledge-augmented image-captioning task in which models must utilize knowledge embedded across modalities for caption generation. To this end, we extend the large-scale SciCap dataset (Hsu et al. 2021) to SciCap+, which includes mention paragraphs (paragraphs mentioning figures) and OCR tokens. We then conducted experiments using the M4C-Captioner (a multimodal transformer-based model with a pointer network) as a baseline for our study. Our results indicate that mention paragraphs serve as additional context knowledge, significantly boosting automatic standard image caption evaluation scores compared to figure-only baselines. Human evaluations further reveal the challenges associated with generating figure captions that are informative to readers. The code and SciCap+ dataset are publicly available: https://github.com/ZhishenYang/scientific_figure_captioning_dataset

  • Yuki Yasuda, Taro Miyazaki, Jun Goto
    2024 年 31 巻 3 号 p. 1166-1192
    発行日: 2024年
    公開日: 2024/09/15
    ジャーナル フリー

    Multi-label text classification, which assigns multiple labels to a single text, is a key task in natural language processing. In this task, a model is often trained on an imbalanced dataset whose label frequencies follow a long-tail distribution. Low-frequency labels that rarely appear in training data have an extremely small number of positive samples, so most of the input samples are negative. Therefore, the model learns low-frequency labels with the loss value dominated by the negative samples. In this research, we propose a method called weighted asymmetric loss that combines the appearance frequency weight of labels, the weight that suppresses the loss value derived from negative samples, and a label smoothing method in accordance with the co-occurrences of each label. Experimental results demonstrate that the proposed method improves the accuracy compared to existing methods, especially on imbalanced datasets.

  • Tomoya Kurosawa, Hitomi Yanaka
    2024 年 31 巻 3 号 p. 1193-1238
    発行日: 2024年
    公開日: 2024/09/15
    ジャーナル フリー

    Characters are the smallest units of natural language, and humans understand texts from characters. Past studies have attempted to train language models with the information obtained from character sequences (character-level information) in addition to tokens to improve the performance of these models in various natural language processing tasks in various languages. However, they treated the performance improvement by character-level information as a performance difference between with and without characters. The extent to which these models use character-level information to solve these tasks remains unclear. The effects of linguistic features such as morphological factors on differences in the performance across languages are also under investigation. In this study, we examine existing character-employed neural models and the variation in their performance with character-level information. We focus on four languages: English, German, Italian, and Dutch, and three tasks: part-of-speech (POS) tagging, dependency parsing, and Discourse Representation Structure (DRS) parsing. The experimental results show that character-level information has the greatest effects on model performance on POS tagging and dependency parsing tasks in German and on a DRS parsing task in Italian. Based on these results, we hypothesize that the significant effects on model performance in German is caused by the average lengths of the words and the forms of common nouns. A detailed analysis reveals a strong correlation between the average lengths of the words and effectiveness on POS tagging in German.

  • 中山 功太, 栗田 修平, 馬場 雪乃, 関根 聡
    2024 年 31 巻 3 号 p. 1239-1291
    発行日: 2024年
    公開日: 2024/09/15
    ジャーナル フリー

    文章中の固有表現の言及を検出し,人名や地名といったクラスへの分類を行う固有表現抽出は自然言語処理の基礎技術である.近年ではより細分化されたクラスへの分類が求められている.固有表現抽出器の構築には一般的に学習データが必要であるが,特に細分化されたクラスを対象とする場合,人手による学習データ作成は非常にコストが高い.先行研究は Wikipedia のリンク構造を活用して学習データを自動作成することを提案している.Wikipedia のリンクは固有表現抽出器の学習には不十分であるため,先行研究では,固有表現の先頭を大文字にする等の英語等の特徴を活用してリンクを拡張している.しかし,これらの手法は言語依存であり日本語には適用できない.本研究では,Wikipedia のリンク付与ガイドラインの定義を活用することでリンク拡張を行う手法を提案する.加えて,Wikipedia 記事中のエンティティ率を推定する手法を提案し,推定値により学習時に制約をかけることで前者では拡張できないリンクの影響を軽減する.本研究では,拡張固有表現階層の 200 カテゴリーを対象に実際に日本語の固有表現抽出器を構築する.提案手法の評価のため,ウェブニュース記事に対して人手によるラベル付けで評価データを作成し,実験により先行研究より高品質な固有表現抽出器が学習できることを示した.

  • 関澤 瞭, 谷中 瞳
    2024 年 31 巻 3 号 p. 1292-1329
    発行日: 2024年
    公開日: 2024/09/15
    ジャーナル フリー

    日本語を用いたコミュニケーションにおいて,敬語を正確に使用することは他者と良好な関係を保つ上で重要である.日本語敬語は,動詞の活用などの文法的な側面と,人物間の社会的関係といった文脈的な側面の両方を持つ.そのため,敬語を正確に理解した上で使用することは,計算機システムにとって文法規則の知識と文脈情報の理解の両方が必要となる挑戦的なタスクである.大規模言語モデルは日本語のタスクでも高い性能を見せることが知られているが,それらのモデルが文脈情報に応じて柔軟に敬語の文法規則を適用する能力を評価するためのデータセットは未だ提案されていない.本研究では,文脈情報を踏まえた敬語理解タスクとして,発話文の敬語使用に関する容認性判断タスクと,敬語変換タスクの 2 つを導入する.導入タスクに合わせて,文の構造や社会的関係を制御可能なテンプレート手法を用いて新規に日本語敬語データセットを構築する.また,既存の日本語敬語コーパスからサンプリングしたデータに追加情報をアノテーションすることで,より自然な文のデータセットを用意する.実験として,2 つのデータセットを用いて,GPT-4 に代表される大規模言語モデルの敬語理解タスクにおける性能を多角的に評価する.実験の結果,より複雑な統語構造を持つ文においては,モデルの敬語変換性能に改善の余地があることが示唆された.

応用システム論文(査読有)
  • 澤田 悠冶, 安井 雄一郎, 大内 啓樹, 渡辺 太郎, 石井 昌之, 石原 祥太郎, 山田 剛, 進藤 裕之
    2024 年 31 巻 3 号 p. 1330-1355
    発行日: 2024年
    公開日: 2024/09/15
    ジャーナル フリー

    日本経済新聞社では,経済分野を中心とした新聞記事と日経企業 DB を保有している.エンティティリンキングを用いて,新聞記事に出現する企業名を日経企業 DB に結び付けることで,特定企業に関する高度な情報抽出への応用に期待ができる.そこで本論文では,新聞記事に出現する企業名と日経企業 ID のリンキングを目的とした,日経企業 ID リンキングシステムを構築する.具体的には,日本経済新聞の新聞記事に記述される企業名に日経企業 ID を付与したデータセットを作成し,企業名抽出モデルと類似度ベースエンティティリンキングモデルから成るパイプラインシステムを実装する.本データセットを用いた評価実験の結果,提案システムは既存システムを上回るリンキング性能を示すことを確認した.さらに,企業 ID リンキング特有の技術的困難性を整理し,提案システムの課題について議論する.

  • 川端 良子, 大村 舞, 浅原 正幸, 竹内 誉羽
    2024 年 31 巻 3 号 p. 1356-1375
    発行日: 2024年
    公開日: 2024/09/15
    ジャーナル フリー

    Spatial ML や ISO-Space など,言語が表現する位置情報を記述する方法が提案されている.これらは固有位置情報や絶対位置情報(東西南北)を記述するのに有効であるが,対話の中で多用される一人称視点の相対位置情報(前後左右)を記述するのには適していない.相対的な参照表現の曖昧性解消をするには,単に 1 つの有向辺のみによる表現は本質的に不十分で,実体の向きを含んだフレームとしての 2 つ以上の有向辺を用いる必要がある.一方,空間論理の分野では,Double Cross Model は空間論理の分野で 3 点の相対的な位置情報を表現するために提案された.本研究では,Double Cross Model を用いて対話の中の相対的な参照表現を形式化し,アノテーションを行ったので報告する.

学会記事(査読無)
後付記事(査読無)
feedback
Top