自然言語処理
Online ISSN : 2185-8314
Print ISSN : 1340-7619
ISSN-L : 1340-7619
29 巻, 4 号
選択された号の論文の19件中1~19を表示しています
巻頭言(査読無)
一般論文(査読有)
  • 帖佐 克己, 森下 睦, 永田 昌明
    2022 年 29 巻 4 号 p. 1052-1081
    発行日: 2022年
    公開日: 2022/12/15
    ジャーナル フリー

    語彙制約付き機械翻訳は,翻訳文に含まれてほしいフレーズが指定された際に,それらのフレーズを含む文を生成するという制約の下で機械翻訳を行うタスクである.本論文では翻訳モデルの入力系列の拡張によってビームサーチによる語彙制約付きデコーディングの探索を効率化する手法を提案する.日英および英日翻訳での実験により,提案手法が従来手法と比べて少ない計算コストで高い翻訳精度を実現できることを確認した.また,自動抽出されたノイズの多く含む語彙制約に対しても語彙制約付き機械翻訳手法を適用する手法を提案し,日英翻訳での実験によって一般的な機械翻訳手法と比べて高い精度が達成可能であることを示した.

  • Hideya Mino, Kazutaka Kinugawa, Hitoshi Ito, Isao Goto, Ichiro Yamada, ...
    2022 年 29 巻 4 号 p. 1082-1105
    発行日: 2022年
    公開日: 2022/12/15
    ジャーナル フリー

    Knowledge distillation is a representative approach in neural machine translation (NMT) for compressing a large model into a lightweight one. This approach first trains a strong teacher model, and then forces a more compact student model to imitate the teacher. Although the key to successful knowledge distillation is constructing a stronger teacher model, the teacher model using state-of-the-art NMT may remain inadequate owing to translation errors. Accordingly, using an inadequate teacher model severely degrades the student model due to error propagation, especially regarding words important to sentence meaning. To mitigate the degradation problem, we propose a knowledge distillation method using a lexical constraint as privileged information for NMT. The proposed method trains a teacher model with a lexical constraint, a list of words automatically extracted from a target sentence in the training data. We configure the lexical constraint according to the importance of words and the fallibility of NMT. Models trained with our proposed method result in improved translation compared with those trained with a baseline method for English↔German and English↔Japanese translation tasks under the condition without ensemble decoding and beam-search decoding.

  • 西村 太一, 迫田 航次郎, 牛久 敦, 橋本 敦史, 奥田 奈津子, 小野 富三人, 亀甲 博貴, 森 信介
    2022 年 29 巻 4 号 p. 1106-1137
    発行日: 2022年
    公開日: 2022/12/15
    ジャーナル フリー

    本論文では,生化学分野における一人称の実験映像データセットであるBioVL2データセットを提案する.BioVL2データセットは生化学における4種類の基本的実験に対し,それぞれ8動画撮影した合計32,総時間2.5時間の映像からなるデータセットである.各映像はプロトコルと紐づいており,言語アノテーションとして(1)視覚と言語の対応関係のアノテーション,(2)プロトコル中に現れる物体の矩形アノテーションの2種類のアノテーションを付与している.構築したデータセットの応用例として,本研究では実験映像からプロトコルを自動生成する課題に取り組んだ.定量的,定性的な評価の結果,開発した手法はフレームに映っている物体名をそのままプロトコルとして出力する弱いベースラインと比較して,適切なプロトコルを生成できることを確認した.なお,BioVL2データセットは研究用途に限定してデータセットを公開する予定である.

  • Qin Dai, Benjamin Heinzerling, Naoya Inoue, Kentaro Inui
    2022 年 29 巻 4 号 p. 1138-1164
    発行日: 2022年
    公開日: 2022/12/15
    ジャーナル フリー

    This paper explores how the Distantly Supervised Relation Extraction (DS-RE) can benefit from the use of a Universal Graph (UG), the combination of a Knowledge Graph (KG) and a large-scale text collection. A straightforward extension of a current state-of-the-art neural model for DS-RE with a UG may lead to degradation in performance. We first report that this degradation is associated with the difficulty in learning a UG and then propose three training strategies: (1) Path Type Adaptive Pretraining, which sequentially trains the model with different types of UG paths; (2) Path Type-wise Local Loss, which is an alternative approach of the Path Type Adaptive Pretraining to generate UG path type-wise local error signals so as to prevent the reliance on a single type of UG path; and (3) Complexity Ranking Guided Attention mechanism, which restricts the attention span according to the complexity of UG paths so as to force the model to extract features not only from simple UG paths but also from complex ones. Experimental results on both biomedical and NYT10 datasets prove the robustness of our methods and achieve a new state-of-the-art result on the commonly used NYT10 dataset. The code and datasets used in this paper are available at https://github.com/baodaiqin/UGDSRE. In addition, a DS-RE toolkit developed based on this work is available at https://github.com/baodaiqin/UKG-RE.

  • 矢田 竣太郎, 田中 リベカ, Fei Cheng, 荒牧 英治, 黒橋 禎夫
    2022 年 29 巻 4 号 p. 1165-1197
    発行日: 2022年
    公開日: 2022/12/15
    ジャーナル フリー

    医学応用のための自然言語処理(医療言語処理)には質の高いアノテーション済みコーパスが必要となる.本研究では,医療言語処理の中でも応用事例の多い固有表現認識と関係抽出を統合的に取り扱う,汎用的な臨床医学テキストアノテーション仕様とその作業ガイドラインの設計について報告する.本仕様では類似の臨床医学テキスト向けアノテーション仕様を統合し,多くの医療言語処理応用に有用な情報をコーディングできる汎用的なエンティティ及び関係を定義した.ガイドラインには医学知識に基づく判断が必要なアノテーションを減らすことで非医療従事者でも作業できる工夫を施し,実行可能性を高めることを目指した.これらの過程では言語処理研究者,医学専門家,アノテーション作業者の三者を交えた反復的な議論プロセスを採用し,実例に基づいて仕様・ガイドラインを整備しつつコーパス規模も拡大させた.本ガイドラインに基づくアノテーションを重篤肺疾患患者の診療録・読影所見 3,769 件に付与するにあたり,まず半量が済んだ段階で予備的な固有表現・関係抽出モデルを作成し,残りをこのモデルによる自動アノテーションの修正作業に切り替えることで効率化を図ったところ,アノテーションの一貫性も向上した.また最終的なコーパスで訓練した固有表現・関係抽出モデルは実用も期待できる性能に達していることを示した.

  • 村岡 雅康, 岡崎 直観, 小比田 涼介, 石井 悦子
    2022 年 29 巻 4 号 p. 1198-1232
    発行日: 2022年
    公開日: 2022/12/15
    ジャーナル フリー

    本研究では,複数文および複数画像から成るマルチモーダル文書を理解するシステムの構築を目指し,文書内における画像を意味的に望ましいテキストに割り当てる新たなタスク Image-to-Text Matching (ITeM) を提案する.また,提案タスクのために Wikipedia から機械的に 66,947 文書および 320,200 画像からなるデータセットを構築する.提案タスクの妥当性および難易度を検証するため,既存のマルチモーダルタスクで最高精度を達成した 2 手法を本タスク向けに改良し,評価実験を行う.結果から,ベースラインの精度を大幅に上回ったものの,人間の精度に到達するには改良の余地があることを確認した.また,既存タスクに対する提案タスクの寄与度を検証する実験では顕著な差は見られなかった一方で,詳細な分析により,記事内の画像数が多くなるほど,また,画像が分散して配置される記事ほどタスクが難しくなる傾向にあることや,タスクを解くためには複数画像を同時に考慮したり画像中の物体情報を抽象化しなければならないなど,既存タスクとは異なる側面の画像理解・言語理解能力を提案タスクによって学習・評価できることが示唆された.

技術資料(査読有)
学会記事(査読無)
後付記事(査読無)
feedback
Top