Bulletin of Data Analysis of Japanese Classification Society
Online ISSN : 2434-3382
Print ISSN : 2186-4195
Article
Discriminant Analysis for Corporate Bankruptcy using Financial Numerical and Textual Data
Limeng XuMingzhe Jin
Author information
JOURNAL FREE ACCESS FULL-TEXT HTML

2021 Volume 10 Issue 1 Pages 45-57

Details
要旨

企業の継続性に関する研究において,財務諸表がよく用いられている.また,経済レポートや電子掲示板,有価証券報告書などを活用して,計量的アプローチで企業の倒産の兆候となる情報を抽出し,企業評価と株価予測などの研究が行われている.本稿では上場企業が金融庁へ提出する年度報告書「有価証券報告書」に載せられた財務に関する数値データとテクストデータを結合して,企業の倒産判別分析を試みた.テクストデータについてはテキストマイニングの方法でデータセットを作成して用いた.その結果,数値データとテクストデータを結合して用いた場合,判別指標のマクロ平均F 値は0.941 に達し,数値データだけによる判別率0.880 およびテクストデータだけによる判別率0.895 を大きく上回ることが示された.

Abstract

Numerous studies have been conducted on bankrupt companies, wherein researchers have often employed financial numerical data for analyzing the continuity of such companies. Additionally, several studies have been conducted in which the signs of bankruptcy have been quantitatively identified through textual data from, for example, economic reports, bulletin boards, and securities reports for corporate evaluation and stock price forecasting.

In this study, discriminant analysis was applied for identifying corporate bankruptcy by utilizing both financial numeric data and textual data. The data used in this study from a part of the Japanese annual securities report. Furthermore, a data set was created for the textual data through text mining.

The results indicate that, the macro-average F-score can reach the value of 0.941 upon incorporating both numerical and textual data, which is significantly higher than the macroaverage F-scores obtained while solely utilizing financial numerical data (0.880) or financial textual data (0.895).

1. はじめに

企業倒産に関して,経済学,統計学,経営学,会計学,金融学など幅広いアプローチから倒産原因や兆候を探究する論文が多く発表されている.先行研究では,企業の決算公表などの財務に関する各種の数値データを用いて倒産のリスクを定量的に予測することが可能であることが報告

例えば,Altman (1968) は大手製造業を対象として倒産企業と継続企業の財務に関する数値データを用いて判別分析を行い,87.35%の判別率を示した.また,日本企業を対象とした戸田(1984)後藤(1989) は規定された業種の企業に対して,いくつかの財務比率指標から倒産予測に有効と思われる項目を抽出し,企業の倒産判別を行った.その後,白田(2003) は企業が倒産する直前年度の財務諸表と継続企業の財務諸表を比較し,倒産モデルSAF2002 を提案し,企業の倒産リスクの予測研究を行った.さらに財務諸表データが倒産予測に有効であることが多く報告されている(齋藤・橘木, 2004; 桜井・村宮, 2007; 高田・保坂・大沼, 2017; Barboza, Kimura, & Altman, 2017; 保坂・田・大沼, 2017).

しかし,社会情勢に伴い会計基準の変更が進行している中,企業における資金繰りの急変が財務諸表上に反映されない場合があり得ることには注意が必要である.また,現実には,十分な財務情報を獲得できなかったり,粉飾会計によるデータが混在したりするようなケースもある.そのような場合には,財務に関する数値情報以外の情報も活用することが求められる.これについては,近年,自然言語処理と機械学習を活用し,企業の活動情報を載せた経済レポートや新聞記事などのテクスト情報を活用した研究が進められている.例を挙げると,公開されている経済レポート,ブログ,新聞記事などのテクスト情報を用いて株価,国債市場の動向を分析する研究が,和泉・後藤・松井(2008, 2009), 和泉・池田・石田(2011)和泉・後藤・松井(2011)吉田(2013)に見られる.

企業情報が掲載された多様な企業のテクスト情報の中で,特に有価証券報告書は金融商品取引法で規定された事業年度の報告資料であるため,一般的な新聞記事や経済レポートより信憑性が高いと想定される.有価証券報告の財務テクストデータを分析対象とする研究としては,白田・竹内・荻野(2009)Shirata, Takeuchi and Ogino (2011)吉田・中藤・御手洗(2013) や佐藤・佐久間・小寺(2018) などが挙げられる.白田他(2009)Shirata et al. (2011) は,1999 年から2005 年までの倒産企業90 社と継続企業90 社の報告書に用いられた名詞,動詞,形容詞と形容動詞を比較し,「配当金」,「内部保留」,「研究開発」などの単語の直後に用いられた言葉は倒産の予測に密接な関連性が見られることを示している.また吉田他(2013) は好調な業績がある医療製造企業を対象とし,テクストデータにおける特徴語の分析を行っている.

また,Mai, Tian and Lee (2019) はアメリカの証券取引所の財務に関するテクストデータとCompustat North America の数値データを用いて企業倒産の判別分析を行っている.彼らは,企業倒産について畳み込みニューラルネットワークの方法を用いて,85%の判別率を得ている.山本(2018) は日本の企業を分析対象とし,倒産前の有価証券報告書のテクストデータを用いて,86%の判別率を得ている.しかし,有価証券報告書の財務に関する数値データとテクストデータの双方を併用して倒産企業と継続企業の判別を行う日本における研究は,管見の限りでは見当たらない.そこで,本研究では,企業倒産の判別において,まず財務に関する数値データとテクストデータの各々の有効性を確認したうえで,両データを結合して判別率を高めるためのテクストから特徴量の抽出方法,そのデータの処理方法およびそのデータに適する判別方法の組み合わせを明らかにする.

2. データの概要

2.1. 対象企業

対象企業は,2008 年から2010 年までのリーマンショックの時期に倒産した上場企業54 社(付録A)と,リーマンショックの時期を経て,10 年以上継続している上場企業87 社(付録B)である.継続企業の選出はウェブサイト「株主プロ」の業種分類に基づき,特定の業種「保険業」と「金融業」を取り除いた29 業種に対してランダムに3 社ずつ抽出した.

分析に用いたデータは上記対象の上場企業が財務局・金融庁に提出する年度報告書「有価証券報告書」の一部の財務数値データと財務テクストデータである.倒産企業は倒産直前と倒産2 年前の2 年分,例えば2009 年に倒産した企業に対して,倒産前年度(2008 年) の報告書は倒産直前とし,前々年度(2007 年) の報告書は倒産2 年前とする.抽出した倒産企業の報告書は2007 年と2008 年の割合が高いため,継続企業の報告書は2007 年と2008 年の2 年分を対象とした.なお,企業単位で2 年分のデータを一つのファイルにまとめたものを倒産前2 年分と表記する.

2.2. 財務数値データ

財務に関する数値データは,有価証券報告書の第一部「企業情報」の「主要な経営指標等の推移」から選出して,比率を計算した.分析に用いた財務データは下記のように,合計11 項目の2 年分である.

1. 営業活動比率=経営活動キャッシュ・フロー÷総資産額×100

2. 投資活動比率=投資活動キャッシュ・フロー÷総資産額×100

3. 財務活動比率=財務活動キャッシュ・フロー÷総資産額×100

4. 純資産比率=純資産額÷総資産額×100

5. 売上比率=売上高金額÷総資産額×100

6. 当期純利益比率=経常利益又は経常損失÷売上高金額×100

7. 株利益比率= 1 株当たり当期純利益又は当期純損失÷ 1 株当たり純資産額×100

8. 現金比率=現金及び現金同等物の期末残高÷純資産額×100

9. 自己資本比率(%)

10. 自己資本利益率(%)0

11. 株価収益率(倍)

2.3. 財務テクストデータ

用いた財務に関するテクストデータは有価証券報告書の「配当政策」という部分であり,企業が残余利益の配分や方針などを記載しているテクストである.テクストの中の数字の影響を防ぐため,すべての数字を「X」文字に入れ替えて統一した.このように前処理を行ったテクストの形態素解析はMeCab(IPA 辞書,バージョンは0.996)を用いた.また,複合語については「専門用語自動抽出システム」(TermExtract)を用いて抽出し,辞書登録を行った.なお,係り受け解析はCaboCha(バージョンは0.96)を用いた.

表1 に倒産企業と継続企業のテクストデータの中の文字数とカッコ内に形態素の述べ数を示した.倒産直前と倒産2 年前の倒産企業のテクストの平均文字数はそれぞれ295 文字と272 文字である.また,継続企業の平均の339 文字と316 文字と比べると,倒産企業のテクストはやや短い.

表1 倒産企業・継続企業のテクストデータ中の文字数(形態素の述べ数)

テクストの形態素としては名詞,動詞,形容詞および複合語のunigram と共起,文節に関しては係り受け関係を考慮した共起を集計した.ここでは,形態素のunigram を略して「形態素」と記すこととする.各特徴量の出現頻度を頻度データとして用いた.また,抽出された頻度データはテクストの長さに依存するため,分析では各テクスト単位で相対頻度に変換した.

相対頻度以外に,式(1) のTF-IDF を求めて用いた.TF(Term Frequency)は式(2) に示すように文書における単語ti の頻度(TF)である.IDF(Inverse Document Frequency)は,式(3)のように定義され,「逆文書頻度」と呼ばれている.式から分かるようにIDF(ti) は単語が多くの文書に現れる場合には値が小さいが,特定の文書にのみ現れる場合は値が大きくなる.ただし,log(1) = 0 を避けるため,式(3) のlog のカッコ内でプラス1 を追加した.TF-IDF が大きいほど,その単語ti の重要度が高いことがわかる.

ただし,

テクストデータから用いる特徴量は,形態素,形態素の共起,文節の共起の相対頻度およびこれらのTF-IDF 計6 種類のデータセットである.

3. 分析方法

判別分析の方法およびアルゴリズム(以下,分類器と呼ぶ)は数多く提案されている.Fernandez-Delgado, Cernadas and Barro (2014) は,179 種類の分類器について121 個のデータセットを用いて比較分析し,ランダムフォレスト(random forests,以下RF)とサポートベクターマシン(support vector machine,以下SVM)が最も有効であることを示した.比較分析に多項ロジスティクス回帰,正則化回帰のLasso は用いたものの,正則化ロジスティクス回帰は用いていない.またLasso に用いたλ は{0.1, 0.0031, 0.0001} に限り,チューニングが十分行われていない.分類器は用いるデータ構造や性質にも依存するため,どのような分類器が用いるデータに適しているかに関しては,実証を重ねて知見を得ることが必要である.

本研究では用いたテクストから抽出したデータセットの変数p は個体数n よりはるかに大きく(n << p),変数には多くのノイズが含まれていることが考えられる.ここで,データセットの変数とは特徴量(図2 等参照)のことで,個体数とは対象企業数のことである.高次元データにおいて変数選択とモデルリングを同時に行う方法として正則化ロジスティクス回帰(regularized logisticregression, 以下RLR)が注目されている.本研究では,広く有効性を示されているRF,SVM にRLR を加えて用いた.また,SVM については,RBF カーネルと多項式カーネルが多用されているため,本研究ではそれぞれ独立した分類器として扱い,前者をSVM-Radial,後者SVM-Ployに略する.これらの方法の詳細に関しては,RF については宮岡・下川(2017),SVM については竹内・鳥山(2015),RLR については川野・松井・廣瀬(2018) などを参照されたい.

分類器に用いるパラメータのチューニングは,学習データに対して10 分割交差検証法を10 回繰り返した.判別結果の評価については,分析に用いた企業の数は決して多いと言えないため,判別モデルの評価は一個抜き交差確認法(leave-one-out cross-validation, 以下LOOCV)を用いて,表2 と式(4) で示すマクロ平均F 値(Fmacro,以下F 値)を求めて使用した.マクロ平均F値は多クラス分類の場合によく用いられているが,クラスごとのF 値を計算した平均であるため,クラスのサイズのバランスが悪い2 クラス分類の場合にも有効である.

表2 混同行列表

ただし,

4. 分析結果

本章では,2 年度の財務数値データ,2 年度の財務テクストデータから抽出した6 種類のデータセットについて,それぞれ4 種類の分類器で判別分析および財務数値データと財務テクストデータを結合して4 種類の分類器で判別分析を説明する.

4.1. 財務数値データの結果

各年度の財務数値データを用いた,RLR,RF,SVM-Radial とSVM-Poly の判別結果(F 値)を表3 に示す.財務数値データは141 行,変数は,単年度のデータは11 個の特徴量,倒産前2 年分は22 個の特徴量である.倒産直前の財務数値データだけを用いたRF とSVM-Radial のF 値0.880 が最も高い.また,倒産2 年前の財務データのF 値は全て0.8 未満であり,倒産前2 年分のF 値はやや高く,0.8 台を超えている.すなわち,倒産直前年の財務数値データは倒産2 年前と倒産前2 年間分のデータより企業倒産の判別分析に有効であることが分かった.つまり,少なくとも表面上の財務数値データに関しては,企業の倒産兆しは,倒産間近にならぬとわからないと解釈できる.

判別に寄与する変数の考察は,RF の変数の重要度やRLR の係数を用いて分析することが可能である.倒産直前の財務数値データのRF モデルにおける各変数の重要度から,「財務活動比率」や「自己資本比率」,「営業活動比率」,「純資産比率」,「当期純利益比率」などの項目が判別に大きく寄与することが読み取れた.

倒産企業と継続企業の特徴を見るため,図1 に倒産直前の財務数値データのRLR 判別モデルへの寄与度が高い変数の係数の棒グラフを示す.係数が正の場合は倒産企業の特徴,負の場合は継続企業の特徴である.図1 から分かるように,正の係数である変数は財務活動比率のみであり,財務活動の比率が高い企業は倒産のリスクが相対的に高い傾向を示す.それ以外の「自己資本比率08」や「純資産比率08」,「営業活動比率08」などの項目が継続企業の特徴と見られた.ここの「08」は2008 年を示す.

4.2. 財務テクストデータの結果

財務テクストデータについては,形態素,形態素の共起と文節の共起に関するデータを抽出し,それらの相対頻度とTF-IDF を用いた.各種類のデータは141 行あり,列数は抽出した特徴量によって異なる.特徴量の種類別のサイズおよび判別の結果を表4 に示す.

表3 財務数値データを用いた各分類器による判別結果(F 値)
図1 倒産直前におけるRLR 判別モデルへ寄与度が高い変数

表4からわかるように,倒産前2 年分の形態素のTF-IDF を用いた場合のRLR のF 値が最も高い.全体的にはRLR とRF はSVM-Radial,SVM-Poly より判別性能が優れていることがわかった.その原因として,RLR とRF は変数を選択して用いるため,ノイズが取り除かれたことが考えられる.また,TF-IDF の値が通常の相対頻度より高い判別率が得られたため,有価証券報告書の「配当政策」のような短いテクストデータを分析するにはTF-IDF を表4用いたほうがより効率的であることが分かった.

RLR 判別に有効な変数を考察するため,倒産前2 年分のテクストデータを用いて判別モデルへの寄与度が高い30 個の変数の係数を棒グラフの形式で図2 に示す.正の値は倒産,負の値は継続に寄与している.棒グラフから変わるように,倒産企業の判別には「機関」,「月」,「利益配分」,「認識」,「事業拡大」などの語句が重要である.その一方で,「年X 回」,「当社」,「収益状況」,「技術」,「X」などの語句が継続企業の判別に大きく寄与していることが読み取れた.

表4 財務テクストデータを用いた各分類器による判別結果(F 値)
図2 倒産前2 年分におけるRLR 判別モデルへ寄与度が高い変数(30 個)

4.3. 財務数値データと財務テクストデータを結合した結果

本節では,財務数値データと財務テクストデータを結合して行った分析結果を説明する.その結果を表5 に示す.表5 からわかるように,倒産前2 年間分の財務数値データと形態素のTF-IDFを用いたRLR のF 値0.941 が最も高い.

表5 財務数値データと財務テクストデータを結合して解析したF 値
図3 倒産前2 年分の結合したデータにおけるRLR 判別モデルへ寄与度が高い変数(30 個)

判別に有効な変数を考察するため,最も高いF 値を得たRLR 判別モデルへの寄与度が高い30個の変数の係数を棒グラフの形式で図3 に示す.係数が正の場合は倒産企業の特徴,負の場合は継続企業の特徴である.図の中の「07」,「08」は,2007 年と2008 年を示す.

図3 から継続企業の判別には,財務数値データの「営業活動比率08」,「自己資本比率08」,「純資産額比率08」と,継続企業の報告書に用いられた「回」,「年X 回」のような具体的な数字表現や「新設」,「推進」など新たな設備に関わる語句が大きく寄与している.一方,倒産企業の判別には,倒産2 年前の「財務活動比率」,倒産企業の報告書の中では,「機関」,「利益配分」,「事業拡大」,「期末配当」などの対策に関わる語句が重要な変数として挙げられる.

財務数値データ(倒産直前)と財務テクストデータ(2 年分)を結合した結果は,財務数値データ(2 年分)と財務テクストデータ(2 年分)の場合より判別率が低いため,ここでは省略した.

5. 考察

本稿では,従来の企業倒産予測や有価証券報告書に関する研究を踏まえ,上場企業の報告書の財務数値データおよび財務テクストデータを分析の対象として,複数の分類器(RLR,RF,SVM-RadialとSVM-Poly)を用いて倒産企業の判別分析を試みた.

その結果,企業倒産の判別分析において財務数値データと財務テクストデータを結合して用いることが有効であることを確認した.また,企業の継続と倒産の判別において,財務数値データのうち,「自己資本比率」や「純資産額と総資産額の比率」,「営業活動額と総資産の比率」が最も重要な指標であり,財務テクストデータでは「形態素のTF-IDF」が最も有効であり,数値データとテクストデータを結合した場合は,2 年間分のデータを用いた方が単年度だけのデータより判別力が高まることが分かった.ただし,数値データだけの場合は倒産直前のデータだけの方が,より判別力が高かった.財務テクストデータでは,数字表記や「当社」,「配分利益」,「機関」などの用語が継続企業の判別に大きく寄与している.

用いた分類器を比較すると,結合データを用いた場合では,正則化ロジスティック回帰(RLR)とランダムフォレスト(RF)がサポートベクターマシン(SVM-Radial とSVM-Poly)より判別率が高い.

本研究は,定量的データと定性的データを同時に用いる方法の基礎的実証研究となるとともに,テクストデータのTF-IDF とRLR と組み合わせた手法は短いテクスト分類に有効であることを示した.

6. おわりに

本研究では,2008 年のリーマンショックの時期に倒産した企業を倒産企業として取り上げて分析したが,今後は倒産企業あるいは継続企業の特徴の一般性を検証するためには,より多くの対象企業と報告書の分析を深める必要があると考えられる.また,本稿では2 年以上前のデータの影響に関しては分析していないため,より長期的なデータについても今後の検討課題としたい.さらに,企業の倒産は社会の変化や技術革新,投資環境,為替レートの変動など様々な要因に影響されていると考えられる.そのため,外的な要因を考慮した視点から企業の倒産判別に関する統合的な分析へと発展させることも課題の一つである.

References
付録

付録A. 倒産企業リスト

付録B. 継続企業リスト
 
© 2021 Japanese Classification Society
feedback
Top