自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
30 巻, 2 号
選択された号の論文の31件中1~31を表示しています
巻頭言(査読無)
一般論文(査読有)
  • 相田 太一, 小町  守, 小木曽 智信, 高村 大也, 持橋 大地
    2023 年 30 巻 2 号 p. 275-303
    発行日: 2023年
    公開日: 2023/06/15
    ジャーナル フリー

    単語は時期や分野の違いによって異なる意味や用例を持つことがあり,自然言語処理の分野では単語分散表現を用いた検出が行われている.最近では文脈の情報を考慮した単語分散表現を生成できる BERT などを用いた研究も盛んに行われているが,大規模な計算資源のない言語学者や社会学者などはこのような手法を適用するのが難しい.本稿では,既存の文書間で同時に単語分散表現を学習する手法を拡張して,2 つの文書間における単語の意味の違いを検出するタスクに取り組んだ.実験の結果より,我々の手法が英語での実験や SemEval-2020 Task 1 だけでなく,これまで行われていない日本語の実験においても既存手法と同等またはそれ以上の性能を示した.また,各手法が単語分散表現の獲得までにかかる訓練時間の比較を行った結果,提案した手法が既存手法よりも高速に学習できることを示した.さらに,提案した単語分散表現獲得手法を用いて,日本語のデータにおいて意味変化した単語や意味変化の種類,傾向などの網羅的な分析も行った.

  • Van-Hien Tran, Hiroki Ouchi, Hiroyuki Shindo, Yuji Matsumoto, Taro Wat ...
    2023 年 30 巻 2 号 p. 304-329
    発行日: 2023年
    公開日: 2023/06/15
    ジャーナル フリー

    Zero-shot relation extraction aims to recognize (new) unseen relations that cannot be observed during training. Due to this point, recognizing unseen relations with no corresponding labeled training instances is a challenging task. Recognizing an unseen relation between two entities in an input instance at the testing time, a model needs to grasp the semantic relationship between the instance and all unseen relations to make a prediction. This study argues that enhancing the semantic correlation between instances and relations is key to effectively solving the zero-shot relation extraction task. A new model entirely devoted to this goal through three main aspects was proposed: learning effective relation representation, designing purposeful mini-batches, and binding two-way semantic consistency. Experimental results on two benchmark datasets demonstrate that our approach significantly improves task performance and achieves state-of-the-art results. Our source code and data are publicly available.

  • 小山 碧海, 喜友名 朝視顕, 小林 賢治, 新井 美桜, 三田 雅人, 岡 照晃, 小町 守
    2023 年 30 巻 2 号 p. 330-371
    発行日: 2023年
    公開日: 2023/06/15
    ジャーナル フリー

    本稿では,日本語文法誤り訂正のための誤用タグ付き評価コーパスを構築する.評価コーパスはモデルの性能評価に欠かすことができない.英語文法誤り訂正では様々な評価コーパスの公開により,モデル間の精緻な比較が可能になりコミュニティが発展していった.しかし日本語文法誤り訂正では利用可能な評価コーパスが不足しており,コミュニティの発展を阻害している.本研究ではこの不足を解消するため,日本語文法誤り訂正のための評価コーパスを構築し,一般利用可能な形で公開する.我々は文法誤り訂正において代表的な学習者コーパス Lang-8 コーパスの日本語学習者文から評価コーパスを作成する.また文法誤り訂正分野の研究者や開発者が使いやすい評価コーパスとするため,評価コーパスの仕様を英語文法誤り訂正で代表的なコーパスやツールに寄せる.最後に作成した評価コーパスで代表的な文法誤り訂正モデルを評価し,今後の日本語文法誤り訂正においてベースラインとなるスコアを報告する.

  • Thodsaporn Chay-intr, Hidetaka Kamigaito, Manabu Okumura
    2023 年 30 巻 2 号 p. 372-400
    発行日: 2023年
    公開日: 2023/06/15
    ジャーナル フリー

    Character-based word segmentation models have been extensively applied to Asian languages, including Thai, owing to their promising performance. These models estimate the word boundaries from a character sequence; however, a Thai character unit in a sequence has no inherent meaning, in contrast with word, subword, and character cluster units that represent more meaningful linguistic information. In this paper, we propose a Thai word segmentation model that uses various types of information, including words, subwords, and character clusters, from a character sequence. Our model applies multiple attentions to refine segmentation inferences by estimating the significant relationships among characters and various unit types. We evaluated our model on three Thai datasets, and the experimental results show that our model outperforms other Thai word segmentation models, demonstrating the validity of using character clusters over subword units. A case study on sample Thai text supported these results. Thus, according to our analysis, particularly the case study, our model can segment Thai text accurately, while other existing models yield incorrect results that violate the Thai writing system.

  • Ying Zhang, Hidetaka Kamigaito, Tatsuya Aoki, Hiroya Takamura, Manabu ...
    2023 年 30 巻 2 号 p. 401-431
    発行日: 2023年
    公開日: 2023/06/15
    ジャーナル フリー

    Encoder-decoder models have been commonly used; they have achieved state-of-the-art results for many natural language generation tasks. However, according to the reports of previous studies, encoder-decoder models suffer from generating redundant repetitions. Thus, we herein propose a repetition reduction module (RRM) for encoder-decoder models that estimates the semantic difference of a source sentence before and after it is fed into the model to capture the consistency between the two sides. As an autoencoder, the proposed mechanism supervises the training of encoder-decoder models to reduce the number of repeatedly generated tokens. The evaluation results of the publicly available machine translation and response generation datasets demonstrate the effectiveness of our proposal.

  • 小谷野 華那, 谷中 瞳, 峯島 宏次, 戸次 大介
    2023 年 30 巻 2 号 p. 432-455
    発行日: 2023年
    公開日: 2023/06/15
    ジャーナル フリー

    自然言語推論は,前提文が真であるとき,仮説文が真ならば含意,偽ならば矛盾,どちらともいえないならば中立であると判定するタスクであり,言語理解の基礎をなすタスクの一つである.数量表現が現れる文間の推論では,論理的含意と推意の間で判定が異なることがある.また否定文や条件文などの文脈に数量表現が現れる推論では,推論の向きが通常の文脈とは反転することが知られている.さらに日本語の数量表現は出現形式が柔軟であり,様々な助数辞の種類や数量表現の用法がある.しかし,これらの意味論的・語用論的特徴に着目したコーパス,及び,数量表現の理解を問うような推論データセットの構築は十分に進められていない.そこで本研究では,既存の日本語ツリーバンクに含まれる文を用いて,助数辞の種類,数量表現の出現形式,用法といった情報を付与したコーパスを構築する.その上で,このコーパスに基づき,日本語数量表現の推論データセットを構築する.また,構築した推論データセットを用いて,事前学習済み言語モデルである日本語BERTモデルが数量表現の理解を必要とする推論をどの程度扱えるかを調査する実験を行った.実験の結果,日本語 BERT モデルは,様々な数量表現を含む推論の扱いについて課題があることを確認した.

  • Thodsaporn Chay-intr, Hidetaka Kamigaito, Kotaro Funakoshi, Manabu Oku ...
    2023 年 30 巻 2 号 p. 456-488
    発行日: 2023年
    公開日: 2023/06/15
    ジャーナル フリー

    A character sequence comprises at least one or more segmentation alternatives. This can be considered segmentation ambiguity and may weaken segmentation performance in word segmentation. Proper handling of such ambiguity lessens ambiguous decisions on word boundaries. Previous works have achieved remarkable segmentation performance and alleviated the ambiguity problem by incorporating the lattice, owing to its ability to capture segmentation alternatives, along with graph-based and pre-trained models. However, multiple granularity information, including character and word, in a lattice that encodes with such models may not be attentively exploited. To strengthen multi-granularity representations in a lattice, we propose the Lattice ATTentive Encoding (LATTE) method for character-based word segmentation. Our model employs the lattice structure to handle segmentation alternatives and utilizes graph neural networks along with an attention mechanism to attentively extract multi-granularity representation from the lattice for complementing character representations. Our experimental results demonstrated improvements in segmentation performance on the BCCWJ, CTB6, and BEST2010 datasets in three languages, particularly Japanese, Chinese, and Thai.

  • Mengsay Loem, 高瀬 翔, 金子 正弘, 岡崎 直観
    2023 年 30 巻 2 号 p. 489-506
    発行日: 2023年
    公開日: 2023/06/15
    ジャーナル フリー

    大量の訓練データを用いたニューラルモデルは生成型要約タスクにおいて高い性能を達成している.しかしながら,大規模な並列コーパスの構築はコストの観点から容易ではない.これを解決するため,本研究では生成型要約タスクの疑似訓練データを低コストで効果的に構築する手法として ExtraPhrase を提案し,訓練データを拡張する.ExtraPhrase は文圧縮と言い換えの2つのモジュールで疑似訓練データを構築する.文圧縮では入力テキストの主要部分を獲得し,言い換えではその多様な表現を得る.実験を通して,ExtraPhrase は生成型要約タスクの性能を向上させ,逆翻訳や自己学習などの既存の訓練データ拡張手法を上回ることを確認した.また,ExtraPhrase は,学習データが著しく少ない場合でも大きな効果が発揮できることを示した.

  • 渡邊 大貴, 市川 智也, 田村 晃裕, 岩倉 友哉, 馬 春鵬, 加藤 恒夫
    2023 年 30 巻 2 号 p. 507-530
    発行日: 2023年
    公開日: 2023/06/15
    ジャーナル フリー

    固有表現抽出 (Named Entity Recognition; NER) は,テキストからの知識獲得に用いられる要素技術の一つであり,たとえば,化学物質や医療の知識抽出に用いられている.NERの性能改善のため,対象タスクの教師データとは別の教師データを補助教師データとして用いる補助学習が提案されている.従来の補助学習では補助教師データとして1種類の教師データしか用いていない.そこで,本研究では,複数種類の教師データを補助教師データとして活用するNERの学習手法 (Multiple Utilization of NER Corpora Helpful for Auxiliary BLESsing; MUNCHABLES) を提案する.具体的には,補助教師データ毎の補助学習を順次行うことで,対象タスクのモデルを補助教師データの種類の数だけ再学習する方法と,全種類の教師データを一つの補助学習で用いる方法の2種類の学習手法を提案する.評価実験では,化学物質名抽出タスクにおいて,7種類の化学/科学技術分野の補助教師データを用いて提案手法で学習したモデルの評価を行った.その結果,提案手法によるモデルはマルチタスク学習や1種類の補助教師データを用いる補助学習手法によるモデルと比べて,7種類のデータセットにおける F1 値のマイクロ平均,マクロ平均ともに高い性能となることを確認した.また,s800のデータセットにおいて従来手法と比較をして最も高い F1 値を達成した.

  • Yuma Tsuta, Naoki Yoshinaga, Masashi Toyoda
    2023 年 30 巻 2 号 p. 531-556
    発行日: 2023年
    公開日: 2023/06/15
    ジャーナル フリー

    Because open-domain dialogues allow diverse responses, common reference-based metrics for text generation, such as bleu, do not correlate well with human judgments unless we prepare an extensive reference set of high-quality responses for input utterances. In this study, we propose a fully automatic, uncertainty-aware evaluation method for open-domain dialogue systems, υbleu. Our method first collects diverse reference responses from massive dialogue data, annotates their quality judgments by using a neural network trained on automatically collected training data, and then computes weighted bleu using the automatically-retrieved and -rated reference responses. We also employ this method with an embedding-based metric, bertscore, instead of the word-overlap-based metric, bleu, to absorb surface variations of the reference responses. The experimental results on the meta-evaluation of our evaluation method for dialogue systems based on massive Twitter data confirmed that our method substantially improves correlations between bleu (or bertscore) and human judgments. We also confirmed that our method is effective when it is combined with a reference-free metric.

  • 牧野 晃平, 三輪 誠, 佐々木 裕
    2023 年 30 巻 2 号 p. 557-585
    発行日: 2023年
    公開日: 2023/06/15
    ジャーナル フリー

    本研究では,文書中の用語間の関係を抽出する文書単位関係抽出において,既存の抽出手法に対して関係間の相互作用を考慮するために,用語を節点,抽出済みの関係候補を辺とする関係グラフを構築し,その関係グラフの辺を編集する逐次的な辺編集モデルを提案する.近年,文書単位関係抽出の研究では,深層学習モデルが利用されている.しかしながら,複数のモデルを組み合わせる方法は明確ではなく,研究ごとに実装方法も異なるため,付加的に新たな観点を導入するのは難しい.そこで,異なる観点として関係間の相互作用を考慮できるように,既存手法で抽出済みの関係候補を編集するタスクを提案する.材料合成手順コーパスにおいて,関係がついていない状態から編集するとF値79.4%の性能の逐次的な辺編集モデルで,ルールベース抽出器の出力を編集すると,性能は80.5%から86.6%に向上した.一方で,時間関係抽出の標準的なベンチマークである MATRES コーパスで最先端の深層学習モデルの抽出結果を編集して評価した場合では性能は向上しなかった.これらの差を解析したところ,編集するモデル単体で抽出可能な関係と編集前の関係が異なることが性能の向上に寄与する大きな要因であることを明らかにした.

  • 石田 哲也, 関 洋平, 欅 惇志, 柏野 和佳子, 神門 典子
    2023 年 30 巻 2 号 p. 586-631
    発行日: 2023年
    公開日: 2023/06/15
    ジャーナル フリー

    行政の政策や接客業のサービスの質を向上させるためには,市民によるフィードバックの収集/分析と同時に都市の特徴を明らかにするための他の都市との比較が重要となる.しかし,都市によって政策やサービスは異なり,市民の抱える意見も異なるため,機械学習により複数の都市に適応した市民意見の分析を実現することは難しい.本論文では,都市を横断して市民意見を抽出する手法を提案する.実験では,横浜市民,札幌市民,仙台市民のつぶやきを対象として,特定の都市のつぶやきでファインチューニングしたモデルを,評価対象の都市の比較的少量のつぶやきを用いて再度ファインチューニングする手法の有効性を確認した.この際,評価対象の都市の訓練データは,異なる都市のつぶやきで訓練したモデルによる予測の確信度が高いものを選定することが有効であることを明らかにした.

  • 佐治 礼仁, 高尾 大樹, 加藤 芳秀, 松原 茂樹
    2023 年 30 巻 2 号 p. 632-663
    発行日: 2023年
    公開日: 2023/06/15
    ジャーナル フリー

    自然言語推論 (NLI) は,2 つのテキストの間に成り立つ推論的関係を同定するタスクである.近年,ニューラルモデルに基づくアプローチが高い正答率を達成している.しかし,このアプローチに基づくNLIは,判定結果に至る過程や理由を説明する能力を有していないという問題がある.一方,NLI では以前より,記号操作に基づくアプローチが提案されてきた.このアプローチは,推論の論理的な過程を明示でき,推論の根拠を示すことができるものの,語の意味的知識や常識的な知識を十分に備えることは容易でなく,高い推論性能の達成は難しいという問題がある.そこで本論文では,タブロー法とニューラルモデルを組み合わせた手法を提案する.タブロー法は,推論規則の適用に基づく論理式の分解,及び,論理式への真偽値割り当てが存在するか否かの検査から構成される.本手法ではこのうち,真偽値割り当ての検査にニューラルモデルを用いる.なお,タブロー法では通常,論理式を操作対象とするのに対し,本手法では依存構造を対象とする.依存構造を用いることにより,ニューラル NLI モデルをタブロー法アルゴリズムに組み込むことが可能となる.提案手法の論理的整合性を検証するために,手法をモデル理論的に定式化し,その理論的性質を明らかにした.また,SNLI コーパスを用いて推論実験を行い,本手法による推論過程の明示可能性を検証した.

  • 李 凌寒, 鶴岡 慶雅
    2023 年 30 巻 2 号 p. 664-688
    発行日: 2023年
    公開日: 2023/06/15
    ジャーナル フリー

    本論文では,ニューラルネットエンコーダが学習する知識のうち,どのような構造的知識が自然言語のタスクを解くのに転移可能かを調査する.提案するアプローチでは,自然言語の構造を模したいくつかの「人工言語」を用いてエンコーダを訓練し,そのエンコーダの自然言語の下流タスクにおける性能を評価することで,事前学習データに含まれている構造的知識の転移可能性を計測する.実験の結果,転移可能なエンコーダを獲得するにあたって,事前学習のデータ系列中において,統計的依存関係が重要であること,係り受け関係を持つ際に入れ子構造が有用であることなどが明らかとなった.こうした結果は,エンコーダが転移可能な抽象的な知識として,位置を考慮したトークンの文脈依存性があることを示唆している.

  • Manabu Kimura, Ryo Nagata, Kazuaki Hanawa
    2023 年 30 巻 2 号 p. 689-712
    発行日: 2023年
    公開日: 2023/06/15
    ジャーナル フリー

    In this paper, we explore the capacity of a language model-based method for grammatical error detection in detail. We first show that 5 to 10% of training data are enough for a BERT-based error detection method to achieve performance equivalent to what a non-language model-based method can achieve with the full training data; recall improves much faster with respect to training data size in the BERT-based method than in the non-language model method. This suggests that (i) the BERT-based method should have a good knowledge of the grammar required to recognize certain types of error and that (ii) it can use the knowledge to estimate whether the given word is correct or erroneous after fine-tuning with few training samples, which explains its high generalization ability in grammatical error detection. We further show with pseudo error data that it actually exhibits such nice properties for recognizing various types of error. Finally, based on these findings, we discuss a cost-effective method for detecting grammatical errors with feedback comments to learners.

  • 小林 千真, 相田 太一, 岡 照晃, 小町 守
    2023 年 30 巻 2 号 p. 713-747
    発行日: 2023年
    公開日: 2023/06/15
    ジャーナル フリー

    単語が持つ意味や用法は時代とともに変わっていく.BERT から獲得した単語ベクトルをグルーピングし,時期ごとの使用率を算出することで意味変化を分析する方法がある.英語の意味変化分析では既にいくつかこの類の手法が導入されているが,日本語への適用はまだない.また,英語での分析では手法ごとの比較が行われていない.そのため,日本語に適用した際の性能や各手法がどのような条件で有効か明らかになっていない.そこで本研究では日本語を対象に,以下の実験を行なった.現代語で事前訓練された BERT の文脈依存ベクトルに,辞書を使った教師ありのグルーピング手法とクラスタリングを使った教師なしのグルーピング手法を適用し比較した.また BERT を通時的なコーパスで fine-tuning し, BERT の文脈依存ベクトルが捉える通時的な特徴を分析した.比較と分析の結果,充実した辞書がない場合,クラスタリングを使った手法が意味変化を捉えるのに適していることが分かった.さらに,現代語 BERT を通時的なコーパスで fine-tuning することで古い時期特有の表現により適した意味変化の分析が可能になることが分かった.一方で,古い時期に出現しない現代特有の用法がある場合には,意味変化を捉えられないケースも存在した.

応用システム論文(査読有)
  • 佐藤 理史
    2023 年 30 巻 2 号 p. 748-772
    発行日: 2023年
    公開日: 2023/06/15
    ジャーナル フリー

    本論文では,2020 東京オリンピック参加者名簿の翻訳支援の経験を報告する.オリンピック参加者名簿の翻訳は,そのサイズと対象となる国数の点において過酷である.これを軽減するために,人名翻訳支援システム「綴 2021」を実装した.このシステムは,既訳辞書と 208 個の国別翻訳サブシステムから構成され,国別翻訳サブシステムで必要となる各国用モデルは,「袷 2019」によって作成される.最終的な翻訳名簿と「綴 2021」の翻訳結果を突き合わせたところ,「綴 2021」の翻訳結果の採用率は,氏名単位で 90.4%,名前(姓または名)単位で 94.0%であることが判明した.

技術資料(査読有)
  • 岡久 太郎, 田中 リベカ, 児玉 貴志, Yin Jou Huang, 村脇 有吾, 黒橋 禎夫
    2023 年 30 巻 2 号 p. 773-799
    発行日: 2023年
    公開日: 2023/06/15
    ジャーナル フリー

    インタビューは技能者からコツを引き出すための重要な対話形式の 1 つである.本研究では,料理ドメインにおける技能者からインタビュアーが料理のコツを積極的に引き出そうとしているインタビュー対話を収集したコーパス (CIDC) を構築した.CIDC は,308 のインタビュー対話(1 対話あたり約 13 分),約 6 万 4 千発話から構成される.対話収集には,ウェブ会議システムを用い,参加者の表情と共有されている料理工程を示す写真を発話音声とともに収録した.また,全ての発話を音声認識によって書き起こし,人手で修正した.なお,技能者とインタビュアーのそれぞれにおいて上級と一般の 2 つの熟達度の参加者を集めた.CIDC を活用することで,今後,インタビュー対話におけるコツの引き出し方に関する研究が進展することが予想される.

解説論文(査読有)
  • 福田 美穂, 関根 聡
    2023 年 30 巻 2 号 p. 800-815
    発行日: 2023年
    公開日: 2023/06/15
    ジャーナル フリー

    一般ドメインでの固有表現抽出が高い精度を実現するようになった今,研究の目標は化学や医療,金融などさまざまなドメインでの固有表現抽出技術の精緻化へとシフトしている.そこで本論文では,ドメイン依存の固有表現抽出技術応用に関する近年の国内研究動向を報告したい.技術に重点を置いた分析は他文献に譲り,具体的な問題を抱えるさまざまなドメインの読者を念頭に「どのようなドメインでどのような対象に対してどのように固有表現抽出が行われているか」を調査した.4 つの学会大会論文および3つの学会論文誌からドメイン依存の固有表現抽出技術に関する論文を調査したところ,該当する論文のうち約半数が,化学ドメインにおける新規商品開発等支援のための化学物質名・化学物質間関係抽出を主題としていた.その他のドメインは,医療,金融,機械加工,文学,食など多岐にわたり,多様な抽出目的・抽出対象を確認できた.技術的には機械学習を使った手法が主流となっており,とくに本論文の調査期間では BiLSTM-CRF および BERT を使う事例が大勢を占めているが,それらを補完する目的で辞書等の言語資源を組み合わせる手法も多く見られている.

学会記事(査読無)
後付記事(査読無)
feedback
Top