2007 年 14 巻 4 号 p. 23-41
本論文では, 日英特許コーパスを用いて専門用語の対訳辞書を作成する方法について述べる.提案手法は, 言語単位としての妥当性と分野による出現の偏りを数値化することで, コーパス中の単語 (列) を専門用語として抽出し, 和英辞書などの既知の対訳用語セット (seed wordリスト) を介して, コーパスにおける各専門用語の共起パターンを計測し, その類似性が高い用語ペアを対訳として対応付ける.この時, 対象となるコーパス間で文脈が類似している対訳のみをseed wordに利用する点が特徴である.本手法を日本語特許抄録とその英訳に適用したところ, 専門用語の抽出精度は日本語で90%, 英語で93%となった.また, 訳語対応付けでは, 各専門用語の対訳として1位に対応付けられた対訳候補の正解率が53% (日英) と66% (英日), 10位以内に対応付けられた対訳候補の正解率が83% (日英) と90% (英日) と, 従来研究と比べて高い精度を得ることができた.本論文ではさらに, PAJの日本語抄録と米国特許抄録を用いた実験を行い, コーパスの違いによる実験結果の違いについても考察する.