日本語史資料には, 同一のあらすじを持ちつつ, 成立時期・地域などを異にするものがある。こうした資料の組のパラレルコーパス化は, 通時的な対照調査の効率化と計量的分析に有益である。本稿では, 『天草版平家物語』(1592刊)と, その口語訳の原拠本に近い『平家物語』を事例に, 日本語史資料に対する語の自動対応付けの手法を検討する。
語の対応付けのためのシンプルな手法として, 語彙素の文字列間の編集距離を用いる方法があるが, この手法は, 「置き換え関係にある別語」の同定が困難である点に問題がある。本稿ではこの問題の解決のため, 語の類似度を測ることができる単語ベクトルのモデルの一つである, Word2Vecを用い, 単純な編集距離の使用に比して精度の高い対応付けを行うことに成功した。