菊池寛には代筆疑惑を持つ作品がいくつか存在し,連載小説「受難華」がそのなかの1 つである.本研究の目的は,「受難華」の真の著者を明らかにすることである.「受難華」の代筆疑惑は川端康成の証言によって発覚した.川端によれば,「受難華」は横光利一の代筆であるが,他に代筆説を支持する証拠がないため,「受難華」の代筆問題が未だに解決されていない.
本稿では,計量文体学のアプローチで「受難華」の代筆問題を検証した.具体的に,菊池寛と横光利一のそれぞれ32 作品と「受難華」の22 回分の連載(全集では69 節からなるが,ごく短い節もあるため,連載時の回単位で分割した)から集計した読点の打ち方,形態素の品詞タグのbigram と文節パターンの特徴量データに対して,階層的クラスター分析,主成分分析,そしてランダムフォレスト,サポートベクターマシンをはじめとする7 つの分類器を用いて統合的に著者判別を行った.その結果,「受難華」の各回は菊池寛の作品だという結論に至った.
Several works of Japanese novelist Kikuchi Kan are thought to be ghostwritten. Serialized novel Junange is one of them. According to the testimony of Kawabata Yasunari, Junange was written by Kikuchi Kan’s pupil, Yokomitsu Riichi. However, this claim remains unsubstantiated due to lack of evidence. In this paper, we verify Junange’s authorship using stylometric methods. We extracted three stylistic features from Junange and 64 novels written by Kikuchi and Yokomitsu. The three stylistic features, which have been reported effective in authorship attribution, are Usage of Comma, Part-of-speech bigram, and Phrase Pattern.
After converting these stylistic features matrices to the relative frequency ones by each work, we used hierarchical clustering analysis and principal component analysis as unsupervised methodologies, and integrated a classification algorithm comprising 7 strong classifiers, including support vector machine, random forest and XGBoost, as the supervised one, to define the authorship of Junange.
According to the results of the analyses mentioned above, we concluded that real author of Junange was Kikuchi Kan.
菊池寛(1888~1948) は大正・昭和年代に活躍した小説家,劇作家,ジャーナリストであり,雑誌「文藝春秋」の創立者としても周知されている.菊池寛の作品には,「無名作家の日記」,「忠直卿行状記」,「身投げ救助業」,「真珠夫人」などがあり,これらの代表作は今でも読まれている.しかし,菊池寛の一部の作品には代筆疑惑が持たれているものがあり(片山, 1994; 片山, 1997),「受難華」がその内の1 つである.
「受難華」は大正14 年3 月号から大正15 年12 月号までに婦人雑誌『婦女界』に連載された小説であり,『忠直卿行状記』よりも遥かに見事な小説と評されている(小林, 1937).「受難華」では,3組の若い男女が様々な「受難」を経て幸せな結婚生活という「華」を手にした過程が同時並行に描き分けられ,大正末期の婦人読者層から圧倒的支持を受けた.連載完結の同年に,「受難華」が映画化され,市川春代,星玲子など当時の名女優を起用したことで一層の好評を博したといわれている.
「受難華」の代筆疑惑が発覚したきっかけは川端康成の証言である.川端の招きで雑誌『人間』の編集者となった木村徳三に対し,若い頃菊池寛に大層世話になったことにふれて,川端が以下のように述懐した.
「菊池さんの「不壊の白珠」,あれは僕が書いたのです.「受難華」は横光(利一)君です.話をひろげすぎて,困りましてね,菊池さんのところへ行くと,あっさりまとめてくれるんですよ……」
この証言は木村徳三の『文芸編集者の戦中戦後』(1995) の中に収録されている.この証言のなかの「話をひろげすぎて」以降の部分が,「不壊の白珠」と「受難華」のどちらにかかるかについてはとても曖昧である.もし「不壊の白珠」にかかる場合,この話は川端本人の実体験として受け取れるが,そうでない場合,すなわち「受難華」にかかるならば,川端が知り合いの横光利一からそれを知ったのかもしれない.残念なことに,木村の記述によれば,その後も川端は他の作家の代筆作品に言及したものの,「不壊の白珠」と「受難華」の2 作品についてはそれ以上語らなかった.横光利一といえば,日記を恒常的につける習慣がないとされ,「受難華」に対するコメントも調べた限り遺していない.
一方,菊池寛は「半自叙伝」(1947) の中に,「受難華」を「初期の長編小説の中の上作」と位置づけ,「今読み返してみても,はづかしいと思ふところはない」と自負を交えて回想したことから,「受難華」の創作過程に菊池寛がまったく関与していないとは考えられない(片山ら, 2016).
以上,川端康成の文壇暴露談と菊池寛のコメントが矛盾し,さらには「受難華」の成り立ちに関する新しい証拠が見つからないこともあり,本作の代筆疑惑は未だ払拭されていない.そこで,本研究では「受難華」の代筆疑惑に対し,計量文体学の手法を用いて検証を加える.川端の証言にある「不壊の白珠」の代筆疑惑については,稿をあらためて議論したい.
これまで,文学作品の代筆疑惑を検証するアプローチは主に2 つある.1 つは史料に基づいた検証,すなわち,代筆者とされる人物と代筆を依頼した者を含む関係者たちの日記,往復書簡,証言などの証拠を集め,それらを整理して代筆疑惑に関する結論を導き出すアプローチである.しかし,上述したような証拠が極めて少ない,または証拠の主旨が食い違う場合,このアプローチは用を成さなくなってしまう.加えて,たとえすべての証拠の主張が一致したとしても,代筆者が書いた原稿を,代筆の依頼者がなんらかの理由で反故にする,もしくは大幅に添削・書き換えをした場合,代筆者よりも依頼者の方こそ作品の真の著者とみなすべきケースもある.これらの理由から,史料に基づいたアプローチのみによって得られた結論は,時として信憑性の低いものと見なされる.
もう1 つは計量文体学の手法を用いるアプローチである.このアプローチでは,代筆疑惑に関連する史料の有無や効力によらず,作品そのものから証拠となりうる何らかの特徴を抽出,数量化し,数学・統計学・機械学習の手法を用いて代筆問題の解決を試みる.
日本語文章の著者判別には,計量文体学の手法がかねてより導入され,様々な切口から用いられてきており,多くの成果を挙げてきた.詳しくは福岡(2007) を参照されたい.著者判別に有効だと報告された特徴量として,句読点の打ち方(金, 1994),品詞の構成率(金, 2004),文節パターン(金, 2013)などが挙げられる.
本研究では,「受難華」の22 回の連載の原文について,計量文体学のアプローチで作品の代筆問題の解決を試みる.
本研究では,菊池寛と横光利一の小説作品をインターネット上の電子図書館である青空文庫より,新字・新仮名遣いに修正済みのものを各32 編ダウンロードし,作品本文とは無関係な情報(入力者名,校正者名,作成日等)と,作品のタイトル,章・節のタイトルなどをすべて削除し,テキストファイル化した.さらに,後述する形態素解析の分析精度を上げるため,「ゝ」,「ゞ」「々」「〻」などの躍り字に対して,筆者たちが逐一文脈を確認した上で,現代でも使うもの以外,すべて元の漢字・平仮名・片仮名に戻した.

一般的に小説には,一文を「です」「ます」などで結ぶ敬体で書かれるものと,「だ」「である」などで結ぶ常体で書かれるものの2 種類がある.敬体で書かれた小説と常体で書かれた小説とでは,それだけで文体が大きく異なる可能性がある.したがって,著者判別では,敬体と常体のどちらか一方だけを分析に用いるのが慣例である.本研究では,「受難華」の文体に合わせて小説作品を選択する段階で,地の文が常体で書かれたものだけを選んで,コーパスを構築した.会話文と地の文は文体が異なるため,分析では,会話文を削除し,地の文のみを用いることにした.表1 に,分析に用いた2 人の作品を示す.
対象作品である「受難華」に関しては,文藝春秋社出版の「菊池寛全集第六巻」(1994) に収録される作品の全文を本研究のために手入力した.出現回数がごく僅かだが,振り仮名が付された語に関しては,振り仮名をすべて無視した.また,形態素解析や構文解析の精度をより高めるため,旧字・旧仮名遣いはすべて現代の使い方に置き換えた.本研究では読点と助詞以外の形態素の表記情報は分析に用いないため,分析結果に影響を与えないと考える.また,全集に収録された「受難華」は69 節(各節にもタイトルが付されている)から構成されているが,連載当時は,1 回の連載に複数の節が含まれていたため,極端に短い節も存在する.例えば,第62 節「渡欧準備」の地の文がわずか190 字である.そこで,「受難華」の創作過程についてなるべく緻密に分析するために,国立国会図書館デジタルコレクションに公開されている収録雑誌「婦女界」のバックナンバーの画像データと照らし合わせ,連載回単位で「受難華」を22 回に分割して,分析に用いた.
本研究では,金(1994, 2004, 2013) が日本語文書の著者判別に有効だと報告した文体特徴量である読点の打ち方,形態素の品詞タグのbigram と文節パターンの3 種類を選択し,分析に用いた.この3 種類の他にも複数の特徴量は提案されているが,それらの多くは文章の内容に依存するため,本研究では,文章の内容から独立し,かつ普遍性があるとされる上記の3 つの特徴量に絞って研究を進めることにした.
読点の打ち方特徴量とは,読点とその前の1 文字(漢字,仮名を問わず)の組み合わせの分布である.「広辞苑第7 版」では,読点について,「1 つの文の内部で,語句の断続を明らかにするために,切れ目に施す点」と説明されている.どの切れ目に読点を入れるかに関しては明確なルールが存在せず,書き手の判断に委ねられている.したがって,読点の打ち方には個人差が存在すると考えられる.本研究では,金(1994) の研究を参考にして,文学作品に多出し,かつ意味がありそうな表2 に示す25 種類の組み合わせを用いた.リストにない組み合わせはすべて「Others」という項目に累加して1 つの変数とする.
形態素(morpheme)とは意味を持つ最小の言語単位である.本研究で用いる形態素の品詞タグのbigram 特徴量とは,隣り合う2 つの形態素の品詞情報の組み合わせの分布である.形態素別に品詞情報を付与するために,形態素解析器のMeCab を用いた.後述する構文解析器CaboChaの辞書仕様との一貫性を考慮して,同族のipadic 辞書を参考した.例えば,「この門をくぐる者は一切の高望みを捨てよ。」という一文に対するMeCab の出力を表3 の第1 段に示す.形態素「門」と「を」に対し,「名詞,一般」と「助詞,格助詞」がタグとして付与されており,それらの2 番目の要素をつなげたもの,すなわち「一般名詞格助詞」は,本研究が定義する形態素の品詞タグのbigramである.
最後に,文節パターン特徴量について説明する.本研究が用いた文節パターン特徴量とは,「言語単位の1 つであり,文を読む際自然に発音によって区切られる最小の単位」(「広辞苑第7 版」)とされる文節に対して,それの構成要素である形態素のうち,助詞と記号以外のものをMeCab出力の第1 層の品詞情報に置き換えたものである.構文解析器としてCaboCha を用いた.「この門をくぐる者は一切の高望みを捨てよ。」という1 文に対するCaboCha の出力結果と対応する文節パターンをそれぞれ表3 の第2 段と第3 段に示す.


本研究では,上述した3 つの特徴量データを菊池寛と横光利一の作品と「受難華」からそれぞれ集計し,作品ごとに相対度数に置き換えてから分析する.形態素の品詞タグのbigram 特徴量と文節パターン特徴量に関しては,菊池寛と横光利一のすべての作品における出現総回数が16 以下の変数をすべて,「Others」という項目に累加する.しきい値を16 にした理由は,16 が各人の作品数の半分であり,出現総回数がそれを下回る変数は,書き手を特徴づける変数としては考えにくいからである.「Others」を含め,形態素の品詞タグのbigram と文節パターンのデータセットの次元数はそれぞれ684 と1051 である.
分析手法として,教師なし(Unsupervised,観測データのクラス情報を必要としない)手法の階層的クラスター分析と主成分分析の他に,サポートベクターマシン(Vapnic, 1995, 以下SVM),ランダムフォレスト(Breiman, 2001, 以下RF),高次元判別分析(Bouveyron, Girard and Schmid,2007, 以下HDDA),エイダブースト(Freund and Schapire, 1996, 以下AdaBoost),ロジスティック・モデル・ツリー(Landwehr, Hall and Frank, 2005, 以下LMT),勾配ブースティング(Chen and Guestrin, 2016, 以下XGBoost) とL1 正則化(Robert, 1996, 以下Lasso) の7 つの教師あり(supervised,観測データのクラス情報が必要である)の分類器(Classifier,与えられた観測データのクラスを正しく予測できるように,判別関数やルールなどを導き出す手法)を用いた.主成分分析では,特徴量データの分散共分散行列を用いた.階層的クラスター分析では,作品間の距離行列を求める際,式(1) に示すSKLD 距離(symmetrical Kullback-Leiblerdivergence)を用いた.作品をクラスタリングするのにワード法を用いた.分類器の実装はそれぞれR の{randomForest},{kernlab},{HDclassif},{ada},{RWeka},{xgboost} と{glmnet}のパッケージを用いた.パラメータはすべてデフォルトのものを使用した.


また,分類器とデータには適応性があり,どのデータでも常に精度がもっともよいことは保証できない.また,一般的に評価が高い分類器で誤判別されたものが,評価が相対的に低い分類器では正しく判別されるケースも珍しくない.なお,同じ分類器について,研究対象から抽出したデータA では誤判別されるが,データB では正しく判別される場合もある.金(2014) では,総合的分類アルゴリズムという,複数の特徴量と分類器の組み合わせで得られた結果の多数決を主旨とする枠組みの導入を提唱した.しかし,金は全ての分類器及びデータの重みを1 としたため,データと分類器との相性を十分考慮していなかった.
そこで本研究では,金(2014) の統合的分類アルゴリズムの枠組みに基づいて,学習データに対する特徴量と分類器との組み合わせ別の正解率情報を重みとして,下記のようにそれを多数決過程に反映させた.
1. 著者が明確な作品から抽出した複数の特徴量データに対して,各分類器を適用する.このデータを以下学習データと呼ぶ.
2. 一個抜き交差検証法(LOOCV)を用いて,特徴量と分類器の組み合わせ別の正解率を計算し,それを要素とするベクトルa を作る.一個抜き交差検証法とは,手持ちのデータから1 個ずつ取り出してテストデータとし,残りのデータを用いて作成した分類モデルを用いて,テストデータのラベル(本研究では,著者)を予測させる手法である.
3. 学習データ全体に対して,再び各分類器を適用し,分類モデルを構築する.
4. 代筆疑惑を持つ作品の各パーツ(章,または回)の特徴量ベクトルに対して,ステップ3 で構築した各分類モデルを適用し,著者判別を行う.結果を要素とする行列B を作成する.
5. 対象作品の各パーツ(B の各行)に対して,対応する正解率ベクトルa の要素を重みとする重み付き平均を式(2) で計算し,スコアとして付与する.n は特徴量と分類器の組み合わせの総数である.
6. スコアの記号で各パーツの著者を決め,スコアの絶対値の大きさで分類の信憑性を考察する.
読点の打ち方特徴量データに対して,階層的クラスター分析を行った結果を図1 に示す.デンドログラムを二分すると,菊池寛の作品(▲)と横光利一の作品(○)はおおよそ独自のクラスターを形成し,8 編の作品(横光利一5 編,菊池寛3 編)が違う著者のクラスターに配置され,デンドログラムの正解率は87.5%である.受難華の各回(+)は菊池寛の作品が大多数を占める左側のクラスターの中に配置されている.
読点の打ち方特徴量データの主成分分析を行う前に,平行分析を行った.その結果,第2 主成分まで考察すればいいことが分かった.個体の第1 と第2 主成分得点に基づく散布図を図2 に示す.第1 主成分と第2 主成分の寄与率はそれぞれ42.31%と19.52%である.図2 から,菊池寛の作品(▲)と横光利一の作品(○)が一部において重なりを見せてはいるものの,各自の塊を形成している.「受難華」の各回(+ 回の番号)からなる塊は菊池寛の作品の塊と密接して,かつ横光利一の作品群とかけ離れて配置されている.このことから,読点の打ち方に関しては,「受難華」は22回を通じて安定しており,かつ菊池の読点の打ち方に似ていることがうかがえる.






しかし,読点の打ち方を修正することは比較的簡単だと考えられる.上述した結果となったのは,菊池寛は横光利一が書いた原稿に,読点だけを自分好みに添削したかもしれない.この可能性を排除するために,読点以外の特徴量を検討する必要がある.そこで本研究では,容易に修正しにくいと思われる品詞の繋がり状況,すなわち形態素の品詞タグのbigram と文節パターン特徴量を分析した.これら2 つの特徴量データに対して,階層的クラスター分析のデンドログラムを図3,図4 に示す.2 つの図とも,「受難華」の22 回はすべて菊池寛のクラスターの中に配置されていることが確認できた.
上記の2 種類の特徴量データに対する平行分析の結果,両方とも5 主成分までの使用が勧められたが,目視で確認した所,乱数行列の主成分固有値を明らかに凌駕したのはいずれも第3 主成分までであるため,本研究では第3 主成分までの検討をすることにした.
主成分分析を行った結果,品詞タグのbigram 特徴量では,第1,2,3 主成分の寄与率はそれぞれ21.69%,17.62%,10.31%であり,文節パターン特徴量のデータでは,第1,2,3 主成分それぞれの寄与率が24.07%,19.28%,7.6%であることが分った.個体の第1,第2 主成分の得点に基づいた散布図を図5,図6 に示す.
図5 と図6 から,菊池寛の作品,横光利一の作品がそれぞれ塊を形成し,「受難華」の各回は横光利一の作品とかけ離れた菊池寛作品の塊に密接して配置されている.紙面上の都合で,第3 主成分に関する図を省略するが,形態素の品詞タグのbigram 特徴量の個体の第1 と第3 主成分得点に基づく散布図からも似たような傾向が見受けられるものの,文節パターンでは寄与率が小さいせいか,3 方が絡み合い,同じ傾向は見られない.
これらの結果から,「受難華」の各回の形態素の品詞タグのbigram と文節パターン特徴量に関しても,横光利一よりも菊池寛の作品のそれらに似ていることが判明した.



上述した階層的クラスター分析と主成分分析の結果から,「受難華」の文体が菊池寛の文体により類似していることが分かった.しかし厳密に言えば,菊池寛と横光利一の作品がはっきりと分かれていないため,目視のみで結論を出すのは適切ではないと考えられる.また,主成分分析に代表される教師なしの手法は,個体のラベル情報を考慮せず,類似度または距離を用いた個体たちの位置関係の再現を主な目的とするため,精密な判別には不向きである.そこで本研究では,特徴量データに対して7 種類の教師ありの分類器を用いて,「受難華」の各回の著者判別を行う.
まず,LOOCV を用いて,特徴量データと分類器の組み合わせごとに構築した分類モデルの正解率を表4 に示す.
表4 では,読点の打ち方とLasso,文節パターンとXGBoost の組み合わせの正解率が0.875と0.859 で,0.9 を下回り,それ以外すべては学習データに対して0.9 以上の正解率が得られている.ちなみに,分類結果の多数決で得られた正解率は3 つの特徴量とも0.95 を超えている.
次に,学習データ全体に対して分類器たちを再度適用し,分類モデルを構築した.続いて,構築した分類モデルを用いて「受難華」の各回の著者判別を行い,結果を図7 に示す.図7 の横軸は用いた特徴量と分類器の組み合わせで,縦軸は「受難華」各回の通し番号である.セルの色に関しては,グレーは菊池寛,黒は横光利一である.図7 から分かるように,全体において,菊池と分類されたセルの数が圧倒的に多い.回ごとに見ると,横光と分類されたセルの数が多くても1/3を超えていない.黒のセルが多いのが第7 回と第20 回で,それぞれ7 個と5 個である.式(2)に従い,各回のスコアを図8 に示す.図8 から,「受難華」の22 回のスコアはすべて0 を大きく超え,菊池寛作品のエリアに入っていることが判明した.第7,20 回のスコアはやや低く,それぞれ0.6324 と0.7225 となっているが,いずれも0.5 を超えており,ある程度の信頼性を示している.
本研究では,「受難華」の読点の打ち方,形態素の品詞タグのbigram と文節パターンの3 種類の特徴量データに対して,主成分分析と階層的クラスター分析を行ったうえで,教師ありの分類器7 種類による統合分析を行った.クラスター分析では,3 つの特徴量とも,「受難華」のすべての回は菊池寛作品のクラスターの中に配置されていた.主成分分析の結果からも,「受難華」を構成する22 回がクラスター分析の時と同じく,菊池寛作品の塊とオーバーラップするか,それの近くに配置されていたことが観測できた.そして,RF やSVM など7 種類の分類器を用いた各回の著者判別を行った結果,「受難華」の22 回の連載はすべて高い確率で菊池寛の作品と判別された.以上のことから,「受難華」は菊池寛の作品と見なしていいと考えられる.
ただし,図7 の横軸の「文」に始まる列が示したように,第7 回と第20 回の文節パターン特徴量を用いた著者判別では,7 個の組み合わせの内,それぞれ6 個と4 個が横光利一の作品と分類された.このことについて,以下のように考えられる.
まず,第7 回と第20 回は内容面で似ている.第7 回は「むしろ義憤を」「嘘の土台」「真実からの嘘」「愛慾の絆」の4 節からなるものであり,第20 回が「行く当なき自動車」「渡欧準備」「此の路」の3 節からなるものである.第7 回では,夫の守山義男が過去に下宿先の娘との間に子供が生まれても,母子2 人を見棄て,子供の養育費さえ出し渋ったということを知り,激怒した妻の吉沢桂子が守山との大喧嘩の末,実家に飛び戻ったという内容を扱った.第20 回では,菊岡寿美子と寿美子の初恋の相手である前川俊一との密会を盗み聞きした夫の林健一が,妻が自分を愛していないことに懊悩しつつ,前川の清らかな心にほだされて帰宅した寿美子との激しい口論の末,2 人の間に新鮮かつ自由な関係が芽生えたと感じたという内容を扱った.これら2 回は他の回と違って,夫婦喧嘩というイベントを中心的に描写したものであり,いわゆる作品の山場である.このことに関係してか,2 回の文節パターン特徴量データを仔細に見ると,「受難華」各回と菊池寛作品における平均使用率に比較して明らかに大きく,かつ横光利一作品における平均使用率に近い項目が「名詞へ」だけである.第7 回では,「所へ」(4 回)「家へ」(4 回)「奥へ」(2 回)「教会へ」(2 回)など,具体的な場所を指し示す名詞の後に「へ」が続くのが33 箇所,「良人へ」(2 回)など人物を指し示す名詞の後に「へ」が続くのが3 箇所で,合計36 箇所である.第20 回の場合,「ベッドの上へ」(2 回)「外へ」「中へ」など10 箇所があり,文字数の割に多く出現している.「名詞へ」が頻繁に出現していることから,著者が場面を素早く切り替えさせ,ストーリーの流れを加速することによって,読者に緊張感と不穏な印象を与えようとしていたことが考えられる.このようなことから,文節のパターンには,テキストの内容への依存性が存在することが考えられる.
本研究では,菊池寛の「受難華」という作品の代筆疑惑について,作品を連載当時の回単位で分割し,計量文体学のアプローチを用いて著者の帰属について分析を行った.その結果,「受難華」の22 回すべては,菊池寛の作品の文体と酷似しており,「受難華」を菊池寛自身の作品と見なして妥当だと結論づけた.
また,大喧嘩を描いた第7 回と第20 回とでは,文節パターン特徴量を用いた著者判別の場合,個別の分類器では横光利一の作品と分類された.その理由として,2 回とも夫婦喧嘩という特殊なイベントを扱っているため,内容に関する情報が多く含まれ,文節パターン特徴量の構成に大きな影響を与えていたことが考えられる.
最後に,本研究が扱う文体特徴量はいずれも内容への依存度が低く,文の構造を重点的に捉えるものであるため,文字のn-gram や形態素のn-gram といった内容依存の特徴量を用いて「受難華」の著者判別を行う場合,同じ結果が得られるかについての検証を今後の課題としたい.