Bulletin of Data Analysis of Japanese Classification Society
Online ISSN : 2434-3382
Print ISSN : 2186-4195
Article
Authorship Attribution in the Multi-genre Mingled Corpus
Yejia LiuMingzhe Jin
Author information
JOURNAL FREE ACCESS FULL-TEXT HTML

2022 Volume 11 Issue 1 Pages 1-14

Details
要旨

近年,代筆疑惑を検証するための著者識別の方法論が発展しつつあり,その応用も飛躍的に普及している.これまでの著者識別の関連研究のほとんどはジャンルの影響を考慮して,用いる文章のジャンルを統一するのが一般的である.しかし,諸事情により同じジャンルの文章を収集することが困難な場合もある.日本語においては,異なるジャンルの文章が混在する場合の著者識別に関する基礎研究はまだない.本研究では,5人の現役日本人作家の2ジャンル(小説,随筆)の計200篇の文章からなるコーパスを作成して,著者識別に有効と報告されている14種類の特徴量と7種類の分類器を用いて,異ジャンル文章が混在する場合における著者識別の精度を比較した.その結果,ジャンルによって使い方が大きく変わる特徴量があるものの,適切な特徴量と分類器を選択すれば,異ジャンル文章が混在しても高い精度で著者識別ができることが分かった.

Abstract

Authorship attribution is a branch of text classification that can be used to identify the author of a text from a set of possible candidates. Orthodox authorship attribution studies usually utilize texts pertaining to a single genre as the target corpus, but this tacit requirement is often not satisfied in real-world scenarios. To address this issue, we explored the possibility of using a multi-genre mingled corpus for authorship attribution in this paper. In particular, we selected fictional pieces and essays of five Japanese writers and identified their authors based on combinations of 14 features and at most seven classifiers while varying the number of possible candidates. Further, we evaluated the susceptibilities of these combinations in a more complicated scenario in which two writers have works in multiple genres. The experimental results demonstrate that a multi-genre mingled corpus is suitable for authorship attribution and that a satisfactory attribution performance can be achieved using appropriately chosen features and classifiers.

1. 研究背景と目的

著者識別(Authorship Attribution)とは,著者が明らかでないある文章が与えられた時,その真著者を何人かの候補著者から特定するタスクであり,文書分類(Text Classification)の1分野として位置づけられている.指紋と似て,著者識別では文章にもその著者固有のパターン(個人文体,idiolect)が存在するとして,それを利用することで著者を割り出すことが可能だと仮定する.

個人文体を量化する試みが18世紀末から始められた.Edmond Maloneは頻出する行末止めと,ごく稀にしか現れない脚韻といった韻の情報を用いてシェイクスピア著の戯曲「ヘンリー四世」の一部が代作だと主張した(Malone, 1787).そして,今でいうところの計量的アプローチによる著者識別研究は19世紀末に遡れる.1887年,アメリカ人地球物理学者のMendenhallは単語の長さの分布を新しい著者識別の特徴量として提案し(Mendenhall, 1887),のちに彼はシェイクスピアとフランシス・ベーコンの作品から集計した単語の長さの分布が明らかに異なることを報告した(Mendenhall, 1901).

20世紀以降も著者識別に関する方法論の整備や個人文体を特徴づけるマーカー(特徴量)の探索などについて,研究が続けられている.それらと並行して,著者識別も当初の文芸作品の真著者推定(Foster, 1989)から,剽窃行為の検知(Vartapetiance & Gillam, 2012)やソースコードの著者識別(Zhang, Hu, Guo & Mao, 2018; Ullah, Wang, Jabbar, Al-Turjman & Alazab, 2019)などに応用されている.対象言語も英語だけでなく,中国語(Jin & Jiang, 2013; Hou & Huang,2020),日本語(Jin & Murakami, 1993; 金, 2014),韓国語(Jin & Huh, 2012; 李・崔・金, 2016)など多言語に拡張され,言語ごとに特化した著者識別の方法論と特徴量が続々と提案されている.タスクによって多少異なるが,著者識別のおおまかなプロセスは以下のように帰納できる.

1. 研究対象の文章を決め,それを書いた可能性のある候補著者らをリストアップする.

2. 候補著者らが書いたと断定できる対象文章と同じジャンルの文章を可能な限り多数かつバラ ンスよくそろえて,適宜に前処理を行う.一般的に,空白・改行記号・注・非対象言語の引 用などの削除,句読点様式の統一が必要とされる.

3. 対象文章を含む全ての文章から特徴量データ(1種または複数種)を集計する.

4. 対象文章を除く特徴量データに対して何らかの手法で分類モデルを構築する.

5. 対象文章に対して分類モデルを適用し,それの著者を識別する.

その内,とりわけ重要視されているのがステップ2である.その理由として,現代日本語ではないものの,所属ジャンルが文章の文体に強く影響を及ぼす可能性が指摘されたこと(小林・小木曽, 2013)と,分類手法の性質上,十分かつバランスが取れたサンプリングが好ましいことの2 点が挙げられる.実際,一部の例外(金, 2009; 財津・金, 2015)を除いて,日本語文章の著者識別研究のほとんどは同じジャンルの文章を対象としている(金, 2002; 孫・金, 2018).

しかし現実問題として,対象文章と同じジャンルの文章を候補著者全員について入手することが困難なときもある.例えば,小説家菊池寛の新聞連載小説「新道」(1936.1.1–1936.5.18)には代筆疑惑がかけられているが,代筆者といわれる彼の秘書だった佐藤碧子には小説作品が一作もない.このような場合,対象文章のジャンルにとらわれない著者識別を行う必要がある.

このようなニーズを意識し,本研究では日本語文章について,違うジャンルの文章がコーパスに混在する場合における著者識別の可能性について実証する.そして特徴量と分類器の観点から用いるべき最良の組み合わせを明らかにする.

2. 先行研究

英語圏においてはここ十数年,ジャンルが著者識別の精度にもたらす影響に注目する研究が行われはじめている.その先駆けとなったのはGoldstein-Stewart, Winder & Sabin(2009)である.彼らは母語が英語の大学生21名から,6つの話題について6つのジャンルの文章を1篇ずつ集めてCMCC(Canadian Memorial Chiropractic College)コーパスを作成して公開した.そして,同じテーマを扱う文章群に対し,テスト用文章のジャンル(任意の1つ)と学習用文章のジャンル(その他5つ)を交差させながら著者識別を行い,平均して82%の正解率を得た.以降,CMCCコーパスを用いて,似たような実験設定のもとで,著者識別の精度を向上するために様々な特徴量と分類手法が試され続け,平均正解率を84.52%に引き上げることに成功した(Barlas & Stamatatos,2020).

しかし,CMCCコーパスはいくつかの問題を抱えている.まず,収録文章の長さのばらつきが大きく,1文章あたりの平均ワード数が1,000未満で,英語文章の著者識別を行うには十分とは言いにくい(Eder, 2013).それに,被験者1人あたりの同じジャンルの文章が6篇だけで,信頼できる分類モデルを構築するには少なすぎる.

また,Goldstein-Stewartらがはじめて設定し,後続研究にも受け継がれた課題は端的にいえば転移学習の類いであって,異ジャンル文章が混在するコーパスそれ自体の著者識別よりも,そこに含まれていないジャンルの著者識別に関心が持たれている.この意味でも本研究とはベクトルが違う.

残念なことに,英語以外の言語種について,調べた限りでは似たような試みがまだない.現状では,異ジャンル文章が混在するときの著者識別が可能かどうかについては,どの言語においても検証が十分に行われていない.本研究はおそらくその第一歩であろう.

3. コーパス

入手の容易さなどの実現可能性を考慮し,本研究では小説と随筆の2ジャンルの文章を対象としてコーパスを構築した.両者はそれぞれフィクションとノンフィクションの代表格であると同時に,大衆に最も親しまれている文芸ジャンルといえる.『新潮日本文学辞典』(磯田ら, 1988)では随筆について,その形体を「詩歌、物語、戯曲、評論に比較すると、明白な組織や構成をもたないところに特色があり、律語、創作、戯曲などのように形式に偏することなく、雑件を随時に書き綴った点に、特殊な妙味を示した文学である」と定義している.『広辞苑第七版』では小説について,「韻文の形式や手法から解放され,どのような素材でも自由に扱うようになった」と定義している.また,『大辞林第四版』(松村, 2019)は随筆について,「見聞したことや心に浮かんだことなどを、気ままに自由な形式で書いた文章」と定義し,小説について「文学の一形式。散文体の文学で、一八世紀以後、近代市民社会の生活・道徳・思考を背景に完成した。作者が自由な方法とスタイルで、不特定多数の読者を対象に人間や社会を描く様式」と定義している.他のジャンルに比べて,小説と随筆という2ジャンルのスタイルが比較的自由であり,著者の個人文体が比較的よく現れると思われる.

一方,同じ著者が書いた小説と随筆との間でも言語使用域において顕著な違いがあることが報告され(Dumbill, 2021),小説の地の文とその他のジャンルの文章間には,和語・漢語率や品詞構成率などの違いがあることも指摘されている(樺島, 1954; 小磯・小木曽・小椋・宮内, 2009).ただ,ジャンルの文体への干渉が著者の個人文体の特徴をも消し去るほど強いものかに関しては,調べた限り先行研究はまだない.

また,これまでの日本語文章を対象とする著者識別研究の多くは青空文庫を利用していたが,青空文庫に公開される作品の発表年代構成では,戦前に発表された作品が占める比重が大きい.周知の通り,終戦翌年の1946年から現代かなづかいが全面的に採用され,終戦を境に日本語の使用様式に大きな変化が生じたことが統計的にも証明されている(李・金, 2019).2018年12月30日の著作権法改正によって,作品の保護期間が従来の死後50年から死後70年へと延長されたこともあり,現代日本語の使用実態を反映する文章を青空文庫から取得することが一層困難となった.

このため,本研究では知名度が高い現役作家5人(村上春樹,村上龍,東野圭吾,湊かなえ,貴志祐介)の小説と随筆をそれぞれ20篇で計200篇を入力してコーパスを作成した.用いた作品のリストを付録に示す.

コーパス作成の際,登場人物の会話文などの引用文について,その人物が架空か実在かを問わず,著者の個人文体よりもその人物の特徴が濃くあらわれている可能性があるため分析から排除し,地の文のみを用いることにした.その他,題名,章名,節名や振り仮名なども取り除いた.また,全般的に短い随筆とは違って,小説の長さには偏りがあり,中には数十万字に上るものも少なくない.そこで本研究では,著者の個人文体が比較的安定して現れてくるであろう5,000文字を目安として,段落単位で作品の冒頭から5,000字強を用いることにした.随筆の場合,5,000字以上のものがないため,引用文を取り除いた全文を用いた.

4. 特徴量

本研究では日本語文章の著者識別に有効だと報告されている特徴量をなるべく網羅的に用いることを心掛けた.選択したのは,文字・記号のn-gram(松浦・金田, 2000; 金, 2007),文節パターン(金, 2013),形態素の品詞情報タグのn-gram(金, 2004; 福岡, 2007),形態素のn-gram,品詞情報タグ付き形態素のn-gramと読点の打ち方(金, 1994; 金・村上, 2007)の計14種の特徴量である.

n-gramとは,隣りあうn個の項目を順に繋ぎ合わせてできたもので,nが1のとき,各項目自身の度数が集計される.本研究ではnを1,2,3とする.

文節パターンとは,文節をそれを構成する形態素の情報を用いてパターン化したものであり,本研究ではパターン化の方法として,金(2013)が報告したもっともロバストであるB型を採用した.すなわち,係り受け解析器CaboChaを用いて文を文節に分けてから,助詞・記号以外の形態素について,それらの第1層の品詞タグを用いてマスキングするやり方である.

形態素解析するには形態素解析器のMeCabとipadic辞書を用いて1,タグ付けの際,解析結果の第2層までを用いることにした.

読点の打ち方とは,読点とその直前の任意の1文字との組み合わせのことである.Jin & Murakami(1993)ではさらにそこから並列を表すものを除外して,出現頻度が高い25種類に絞ったが,本研究では他の特徴量と同様に全ての組み合わせについて頻度を集計してから閾値を設けて,頻出項目をふるい分けて分析に用いた.

5. 分析手法

本研究で用いた手法は大きく分けて教師なしの視覚化手法と教師有りの機械学習手法の2種類である.前者については,特徴量データの分散共分散行列に対して主成分分析を用いた2.後者については,日本語文章の著者識別に有効だと報告された7種類の分類器を用いた.それぞれはサポートベクターマシン(Cortes & Vapnik, 1995,以下SVM),ランダムフォレスト(Breiman,2001, 以下RF),Adaptive Boosting(Freund & Schapire, 1997, 以下AdaBoost),高次元判別分析法(Bouveyron, Gerard, & Schmid, 2007, 以下HDDA),ロジスティックモデルツリー(Landwehr, Hall, & Frank, 2005, 以下LMT),XGBoost(Chen & Guestrin, 2016)とlasso回帰(Robert, 1996)である3

6. 実験

6.1. 実験設定

本研究では主成分分析の結果に基づく視覚化のほかに3つの評価実験を行う.実験Iはジャンル推定で,全ての文章から集計した特徴量データ別に,ジャンルを目的変数とする2群分類を行う.実験IIでは,任意のn人(n=2,3,4,5)の組み合わせ全てについて,彼らの作品からなるサブコーパスを対象に1個抜き交差検証法で著者を目的変数とする多群分類を行う.いわゆる実験IIIでは,候補著者によって入手できた文章のジャンルが異なるというシチュエーションを想定し,特徴量と分類器の各組み合わせについて以下のような2群分類を行う.

1. 任意の2名の著者(AB)の2ジャンル(αとβ)の文章からなるサブコーパスDを作成し,そこから1篇ずつ取り出してテスト文章として,diでそれを表記する.

2. diについて2つの学習用コーパスを作成する.

(1) diと同じ著者の,diと同じジャンルの文章(diを除く)と,もう1人のdiと違うジャンルの文章からなるコーパス.

(2) diと同じ著者の,diと違うジャンルの文章と,もう1人のdiと同じジャンルの文章からなるコーパス.

di が著者Aのαジャンルの文章である場合,diについての2つの学習用コーパスを作成する.ここで,たとえばAβは著者Aによるジャンルβの文章の集合で,Aαからdiを除いたものである.

3. 2つの学習用コーパスから集計した特徴量データに基づいて分類モデルをそれぞれに構築してdiの著者を識別する.

4. Dの中の全文章について2.と3.を行い,(1)と(2)の平均正解率を計算.

5. 全ての著者ペアについて1.から4.を行い平均正解率の平均と標準偏差を計算.

また,Dが決まり次第,Dに対応する各特徴量の集計データについて,出現総度数が50以下の項目をOthersという新しい項目にまとめてから,文章(行)ごとに相対頻度へと変換する.したがって,同じ特徴量データでも著者ペアによって実際に用いた変数の項目も数も違う.全試行を通じて用いられた特徴量データの次元数(Othersを除く)の上・下限を表1に示す.

表1 各種特徴量データの次元数の振れ幅

6.2. 評価指標

3つの評価実験はすべてLOOCVで得られた正解率の平均値と標準偏差を評価指標として用いる.ただし,評価実験I(ジャンル推定)と評価実験IIのうち,候補著者が5人の時だけ,特徴量と分類器の組み合わせごとに正解率の計測が1回しか行われないため,正解率のみを用いることにした.

7. 実験結果

7.1. 主成分分析による視覚化の結果

まず,各種特徴量データについて視覚的に考察を行うために,主成分分析の散布図を図1に示す.上段ではジャンルによってラベルを振り分け,下段では黒塗りとそうでないマークを用いてジャンルと著者を示す.具体的な対応関係は右側の凡例欄に示してある.紙幅の関係で代表的な4種類の配置状況だけを示す.全特徴量の配置状況は筆者らのGitHubにて公開している(https://github.com/Liu-Yejia/illustrations).

図1 ジャンル別・著者別の特徴量データの配置

図1の上段では,文字・記号のunigramと文節パターンについては,小説と随筆がおおよそ平面を左右に2分し,それぞれクラスターを形成しているように見える.形態素タグのunigramと読点の打ち方に関しては2つのジャンルが混ざりあっていることから,これら2種類の特徴量ではジャンル間の違いが鮮明でないと思われる.

また,下段のいずれにおいても同じ著者の文章が近くに配置されていることが見てとれる.そして同じ著者の文章において,湊かなえ以外の4人の小説と随筆がともに隔たって配置され,ジャンル別にかたまりができているように見える.

以上のことから,多くの著者がジャンルを意識して文体を使い分けていることがうかがえる.特徴量別に見れば,形態素品詞タグのunigramや読点の打ち方といったジャンルにあまり影響されず,使われ方が比較的一貫しているものもあれば,ジャンルによって使用実態が大きく変わるものもあることが分かった.

7.2. 教師あり機械学習によるジャンル推定

評価実験I(ジャンル推定)の結果を表2に示す.表2から同じ分類器でも用いる特徴量によってジャンル推定の正解率が大きく変わることが分かった.例えば,AdaBoostを用いる場合,変数の数がともに少ない形態素品詞タグ(POS)のunigramと読点の打ち方について,前者の正解率が87.50%であるのに対して,後者の正解率が76.00%でしかない.変数の数が多い他の特徴量については,AdaBoostはすべて90%台の正解率を得た.

表2 ジャンル推定の精度

また,上述した2種類の特徴量を除けば,どの特徴量についても平均して8割以上の正解率でジャンルを推定できることから,著者を問わず,小説と随筆という2つのジャンルの間には,文体的違いがある程度存在することがうかがえる,これは前節に述べた主成分分析による視覚化の結果にも通じる.

7.3. 異ジャンル文章が均等に混在する場合の著者識別

次に,評価実験IIの結果を示す.表3から表6はそれぞれ候補著者の人数が2人から5人の場合に対応する.Accu列には正解率または正解率の平均値を示し,SD列には標準偏差を示す.視認性向上のため後者をグレーに塗った.最終列と最終行には対応行(列)の平均値を示す.

表3 著者識別の結果(2人)
表4 著者識別の結果(3人)
表5 著者識別の結果(4人)
表6 著者識別の結果(5人)

まず,最大正解率(太字部分)について人数別に見ると,候補著者が2人の場合,文字・記号のbigram/trigramとRFの組み合わせの平均正解率が99.88%で最も高い.候補著者が3人または4人の場合,文字・記号のbigramとRFの組み合わせの平均正解率はともに100%に達した.候補著者を5人に増やした場合,タグ付き形態素のunigramとRFの組み合わせの正解率が100%に達し,文字・記号のbigram/trigramとRFの組み合わせが並列2位(99.50%)となった.

また,正解率全般も高く,特徴量と分類器の全部で98個の組み合わせの内,候補著者が2人の場合では83.04%(93/98),候補著者が3人,4人と5人の場合ではそれぞれ79.59%(78/98),71.43%(70/98)と68.37%(67/98)の組み合わせが90%以上の正解率で著者を正しく識別できている.全組み合わせの正解率が平均して95.98%(2人),94.50%(3人),92.75%(4人)と91.42%(5人)で,ともに90%を超えていることから,異ジャンル文章が均等に混在する場合,人数を問わず高い正解率で著者識別ができたと言える.

最後に,分類器別に見ると,候補著者の人数が多くなるにつれて平均正解率が低くなる傾向にあるものの,RFの平均正解率が常に最も高いことが分かった(98.91%→97.05%→97.72→97.29%).

7.4. 候補著者によってジャンルが異なる場合における著者識別の結果

すでに6.1.で述べたように,評価実験IIIでは候補著者によって違うジャンルの文章しか入手できないシチュエーションを想定する.本研究に用いるコーパスが小説と随筆の2ジャンルからなるため,それにあわせて候補著者の人数も2人に限定することにした.評価実験IIIの結果を表7に示す.

表7 評価実験IIIの結果

表7と同じく候補著者が2人の評価実験IIの結果(表3)を見比べて,特徴量と分類器の98の組み合わせ全てにおいて正解率の低下が見られており,低下幅が5.06%から45.00%である.また,最終行である「分類器別の平均」を見ると,XGBoost以外の分類器はすべて80%前後の平均正解率が得られ,中でもlassoが85.34%で最も高い.最後の2列である「特徴量別の平均」から,既存特徴量を用いた場合,平均しておおよそ70%台の正解率で著者識別ができることが分かった.

特徴量と分類器の組み合わせ別に見ると,最も優れているのはlassoと文節パターンの組み合わせ(太字部分)で89.5%の平均正解率が観測された.lassoと形態素品詞情報タグのbigram(89.13%)が0.037%の僅差でそれに次ぎ,3位のSVMと読点の打ち方(87.63%)に1.5%の差をつけて大きく引き離している.

8. 考察

小説と随筆の2つのジャンルの文章について,程度の差はあるものの,著者たちはジャンルの違いを意識して文体を使い分けていることが散布図と評価実験I(ジャンル推定)の結果の両方から確認できた.ジャンルによって使い方が大きく変わる特徴量もあれば,そうでないものもある.

また,評価実験IIの結果から分かるように,ジャンルが文体へ及ぼす影響は必ずしも著者の個人文体をも消し去るほど絶対的なものではない.少なくとも小説と随筆においては,人数の多寡を問わず,異なるジャンルが混在しても高い精度で著者識別ができた.これを裏付けたのが評価実験IIIの結果である.評価実験IIIでは候補著者によって異なるジャンルの文章が用いられていたが,適切な特徴量と分類器さえ選択すれば,9割近い正解率で著者を識別できることが分かった.また,文字・記号のn-gramをはじめとする一部の特徴量はジャンル推定とジャンル間のバランスが取れた著者識別の両方において有効だが,バランスが大きく崩れると識別精度が大幅に落ちた点について,以下のように考える.

流体が容器に注入されてからはじめて形を持つように,個人文体もまたなんらかのジャンルに落とし込まれないと実体化できない.執筆時,書き手は内容の深刻さや人称などジャンル側の制約を受けながら文体をチューニングして文章に反映させる.チューニングしやすい部分ほどジャンルに引き摺られやすく,個人文体も現れやすい.その最たるものは文字・記号のn-gramである.ただ,評価実験IIIのように,ジャンル側の制約が前面に押し出されたとき,文節パターンのようなジャンルに引き摺られにくい部分は逆に個人文体の特徴を比較的忠実にとどめていると考えられる.

9. まとめと今後の課題

本研究では,異ジャンル文章が混在する場合における著者識別の可能性について,候補著者の人数を変動させた実験を通じて,ジャンルにあまり影響を受けない比較的ロバストな特徴量と分類手法を明らかにした.また,書き手の文体特徴がジャンルに影響を受けながらも保持されていることがわかり,著者識別の際,候補著者たちの幅広いジャンルの文章は分析に供せられる可能性を指摘した.この発見は,文学作品の代筆疑惑に代表される知的財産の帰属にまつわる種々の社会問題の解決にもつながりうる.

ジャンルが個人文体の入れ物という本研究が導き出した知見は,著者識別に限らず,文体が対象の研究全般にも新風を吹き込むことが期待される.すなわち,特定のジャンルにとらわれず,複数のジャンルに注目した方が書き手の文体をより正確に把握できる可能性がある.

本研究では対象ジャンルを小説,随筆の2つに限定したが,情報化社会が急速に進む今,小説と随筆よりもWeChatやTwitterといったソーシャルネットワーキングサービス(SNS)上のやり取りがもっとも身近い文章ジャンルになりつつある.今後,SNS上の投稿やメッセージ,電子メールといった比較的短いジャンルを含む横断的著者識別の可能性についても検証したい.

謝辞

論文担当員,審査員各位には,有益なご助言を多くいただきました.心より感謝申し上げます.

脚注

脚注1 他にもUniDic(国語研短単位自動解析用辞書)やmecab-ipadic-NEologdなどの辞書があるが,本研究では先行 研究のプロセスを踏襲して,デフォルトのipadic 辞書を用いることにした.

脚注2 Rの{prcomp}パッケージ中の同名関数を利用.

脚注3 これらの分類器を実装するにはCRANから下記のパッケージを用いた.それぞれが{randomForest}, {kernlab},{ada}, {HDclassif}, {RWeka}, {sdwd}, {xgboost}, {glmnet} である.また,候補著者が3人以上の時,AdaBoost の実装については{adabag}を用いる.

References
付録

付録:作品リスト
 
© 2022 Japanese Classification Society
feedback
Top