近年,言語モデルの大規模化が加速し,これまでは個別の開発が必要であった広範な言語処理タスクを単一モデルで扱えるようになった. GPTなどの単方向事前学習済み言語モデルはパラメータ数数十億から数百億規模の超大規模化が進んでいるが,BERTなどの双方向事前学習済み言語モデルではパラメータ数は高々数億程度にとどまる. しかし,古典的なタスクにおいては,比較的小さなパラメータ数の双方向事前学習済み言語モデルの方が有用であることが示唆されている. 本研究の目的は,モデルアーキテクチャと事前学習方法のいずれによってその差異がもたらされるかを明らかにすることである. 本研究では,統制された条件下で双方向・単方向の事前学習済み言語モデルを学習し,事前学習前に比べ事前学習後の下流タスクの性能 (GLUEスコア) の差が広がることを確認した. 事前学習前における両モデルの差異はアーキテクチャのみであるため,事前学習方法による影響はアーキテクチャの影響よりも支配的であることが示唆された.