新しい研究成果の公表作業の効率化を図るため,論文投稿先の候補となる学会誌の論文タイトルから内容を推測し,各学会が注力する研究分野を特定するとともに,最適な投稿先の予測モデルを作成した.まず,ChatGPT を活用してアーカイブズに関連するA~D の4 つの学会誌に掲載された各論文のタイトルから内容を推測し,推測結果を集計して解析用データを作成した.このデータを次元削減して各論文の主成分軸上の分布を可視化し,クラスター分析によって4 つの群を抽出した.学会誌別に各群の論文の収録編数を集計すると,A,B,Dの各誌はそれぞれ一つの群の論文が突出して掲載されていたのに対し,C 学会誌は各群の論文を比較的偏りなく掲載する傾向がみられた.さらに,各論文の内容を説明変数,掲載先を目的変数とする学習データを複数の機械学習の手法で学習させ,最適な投稿先の予測モデルを作成したところ,予測精度はAUC(Area Under the Curve)にして0.88 前後の高い値が得られた.
BERTは大量の学習データを用いて事前学習を行い,微調整して個別分野のタスクに適応させる汎用言語モデルである.日本語では比較的に入手しやすいWikipedia,青空文庫,日本語ビジネスニュース記事などに基づいて学習したBERTが続々と公開されている.本研究では,著者推定において異なる事前学習データから構築された複数のBERTの性能比較を行い,事前学習データが個別タスクに与える影響を分析した.また,複数のBERTのアンサンブル学習で著者推定モデルの精度を向上させる方法について研究を行った.その結果,青空文庫内の著者の推定において青空文庫から構築されたBERTの性能が高いことがわかった.よって,事前学習データが個別タスクを解く際のモデルの性能に影響を与えていることが明らかになった.また,複数のBERTのアンサンブル学習モデルの性能は,BERTを単体で用いた場合の性能に比べて向上することがわかった.
従来の物語分析は特定のジャンルを対象としたもので,ジャンル間の差違などを計量的に明らかにする研究はなされてこなかった.本研究では,ジャンル横断的な物語構造分析を実現するため,現代日本のエンターテイメント作品で頻出の5ジャンル(冒険,戦闘,恋愛,探偵,怪談)を対象として各ジャンル合計1500話以上を収集した.また全ジャンルを共通の枠組みで構造分析し比較可能なデータセットを構築した.各ジャンルのデータセットに基づき,因子分析により物語展開の共通・固有の因子を特定した.またサブジャンルの構造的特徴もクラスター分析によって抽出された.各ジャンルの特徴が同じ基準で比較可能となったことで,今後ジャンル複合的な物語の分析や自動生成の実現にも道が開かれると期待される.