Journal of Innovation Management
Online ISSN : 2433-6971
Print ISSN : 1349-2233
Refereed Articles
A Review of Research on Fraudulent Accounting Detection Models Using Form 10-K Text: Challenges and Outlook
Keisuke MiyagoNatsuki SatoAyuko KomuraHirohisa Hirai
Author information
JOURNAL FREE ACCESS FULL-TEXT HTML

2024 Volume 21 Pages 107-125

Details
要旨

2010年代以降、不正会計検知モデルの構築を目的として、財務指標を特徴量とする研究だけではなく、テキスト分析によって抽出されたテキストに関する要素を特徴量とする研究が進展している。このレビューでは、米国市場の上場企業のForm 10-Kのテキストを用いて不正会計検知モデルを構築した研究を対象として、特徴量の抽出過程や構築したモデルの検知精度などに焦点を当てながら、2010年から2020年までの8本の文献のサーベイを行う。レビューを通して先行研究の成果を整理した上で、次の5つの課題を提示した。1)“bag of words”アプローチによる研究は、抽出された特徴量(単語)がなぜ不正会計検知に寄与したのかについての解釈と理論化に課題がある。2)テキストに関する特徴量と、財務指標の特徴量の間には不正会計検知について補完関係がある。今後の研究では、どのような財務指標がテキストに関する特徴量と高い補完関係を有するのかを明らかにする必要がある。3)分析対象をForm 10-K全体とする場合と、MD&Aセクションなどの特定のセクションに限定する場合での不正会計検知モデルの精度比較がされていない。4)不正会計サンプルと非不正会計サンプルのサンプリングとしてマッチドサンプリング以外の方法を採用する研究蓄積と、5)時系列データによるモデリングを行う研究蓄積が必要である。

Abstract

Since the 2010s, research has been progressing to construct accounting fraud detection models not only using financial indicators but also textual features through text analysis. In this review, we focus on studies that have constructed accounting fraud detection models using the Form 10-K text, and survey the eight studies from 2010 to 2020, focusing on the process of feature extraction and the detection accuracy of the models.

Summarizing the results of previous studies through the review, the following five issues are: 1) Studies using the “bag of words” approach face challenges in interpreting and theorizing why features contribute to the detection of accounting fraud; 2) There is a complementary relationship between textual features and financial indicators in detecting accounting fraud. Future research should look at which financial indicators have a highly complementarity with textual features; 3) Prior research has not clarified whether features extracted from the whole Form 10-K are more accurate in detecting accounting fraud than features extracted from a specific section such as the MD&A section. 4) Few studies apply methods other than matched sampling in sampling of fraudulent and non-fraudulent cases; 5) More studies using time series data are needed.

1.  はじめに

本稿は、テキストマイニングを利用した不正会計検知モデルの構築研究をレビューし、成果を整理したうえで、残された課題と将来の研究の展望を提示することを目的とする。

不正会計は「財務諸表や財務開示(財務諸表への注記やSECへの提出書類)の意図的で重要な虚偽記載、または財務諸表や財務開示に重要な直接的影響を与える違法行為の実行」(Beasley et al., 2010, p.18)と定義される事象である。不正会計が行われると、投資家等のステークホルダーが影響を受けるだけではなく、財務報告プロセス自体に信頼性があるのかという懸念につながる恐れがある(Beasley et al., 2010)。そのため、外部監査人に対して監査プロセスを通じた不正会計の発見(検知)が求められている。

ただし、不正会計の実施は非常に稀な事象であり、外部監査人は日々の監査プロセスにおいて実際に不正会計を行っている企業を監査するという経験を積むことが難しい。外部監査人による不正会計の発見率は4%と低い水準であるとの報告(ACFE, 2020)もある。そのため、統計的手法や機械学習手法を活用した不正会計検知モデルの構築と監査プロセスにおけるその活用に対する期待が高まっている(West & Bhattacharya, 2016)。

まず、財務諸表から得られる会計数値や市場に関するデータ等を、不正会計検知モデルにおける説明変数(特徴量)として利用している研究がある。Dechow et al.(2011)は、それまでの会計分野における先行研究の理論や実証結果をもとに、不正会計企業の特性を示す要因を変数化し、ロジスティック回帰による検知モデルを構築した。佐藤他(2023)は、日本企業を対象にして、財務指標に加えて、財務諸表から直接入手可能な会計数値(ローデータ)を特徴量として検知モデルを構築している。

これらの財務数値を基礎とした不正会計検知モデルは、過去の不正な財務諸表との類似性から不正会計の可能性を算出しており、不正会計企業が非不正会計企業の財務数値と似た傾向を持つように自社の数値を操作していた場合、「不正会計の疑いあり」というフラグを立てることができない。そこで、Form 10-K(以下、10-K)等の報告書に対してテキストマイニングを利用し、不正会計検知モデルを構築する研究も進められている。これは、不正会計企業と非不正会計企業の報告書における記述の違いから、不正会計を隠蔽するための言語的なパターンを明らかにすることができれば、これらを特徴量とすることで、検知精度の高い不正会計検知モデルの構築につながると考えられているためである。

ただし、日本企業の有価証券報告書等のテキストを対象として、テキストマイニングによって特徴量を抽出し、不正会計検知モデルを構築する研究はまだなされていない。日本企業の有価証券報告書のMD&Aセクションにおける文章の難易度について不正会計企業と非不正会計企業の間で統計的に有意な差があるかを検証する研究(Nakashima et al., 2022)はされているものの、検知モデルを構築していないという限界がある。そこで、本稿は、当該分野について研究の進展している米国市場の上場企業を対象とした先行研究8本をレビューし、成果と課題、展望について明らかにする。

2.  先行研究レビュー

2.1  先行研究の選定基準

本節では、2010年から2020年におけるテキストマイニングを利用した不正会計検知モデル構築を目的とした研究をレビューする。レビュー対象は、①サンプルを10-Kのテキストとしている研究、②不正会計検知モデルを構築し、テストデータに対する検知精度を算出している研究とする。不正会計検知モデルの構築にあたり、10-Kのテキストではなく、決算説明会の謄本を利用した研究(e.g. Larcker & Zakolyukina, 2012)もなされているが、本稿は、有価証券報告書のテキストから特徴量を抽出し、検知モデルを構築することを企図しているため、①の条件を設定し、有価証券報告書に対応する10-Kを対象とした研究に限定している。②の条件により、10-Kのテキストから特徴量を抽出し、不正会計企業と非不正会計企業でどのような違いがあるかを実証している仮説検証型の論文(e.g. Loughran & McDonald, 2011Hoberg & Lewis, 2017)をレビュー対象から外している。この条件に当てはまる研究として、計8本が抽出された。

2.2  不正会計検知モデルの評価指標

先行研究の不正会計検知モデルの検知精度を比較・検討するために、本稿では8本の先行研究で共通して使用されているAccuracy、Precision、Type I error、Type II error、F1-measure、F2-measure、ROC-AUCの7つの評価指標を取り上げる。各評価指標の説明を表1に示す。

表1 各評価指標の説明

指標名 説明
Accuracy 不正会計検知モデルが正しく推定したサンプルをサンプル全体の値で除した値。この値が高いほどサンプル全体の判別率が高いといえる。論文によっては、Correct Classificationと呼ばれることもある。
Precision 不正会計サンプルと推定したうち、実際に不正会計サンプルであった割合。この値が高いほど不正会計サンプルを効率的に当てていることを示す。
Type I error 非不正会計サンプルを不正会計サンプルと誤って推定した割合。この値が高いほど非不正会計サンプルの誤判別が多いことを意味する。1からType I errorを除いた値は、Specificityと呼ばれる。
Type II error 不正会計サンプルを非不正会計サンプルと誤って推定した割合。この値が高いほど不正会計サンプルの誤判別が多いことを意味する。1からType II errorを除いた値は、Sensitivity(もしくはRecall)と呼ばれる。
F1-measure PrecisionとSensitivityのトレードオフ関係に着目し、2つの値を調和平均した値。この値が高いほどPrecisionとSensitivityのバランスがよいモデルといえる。
F2-measure F2-measureとは、F1-measureに比べてPrecisionよりもSensitivityを重視した指標である。
ROC-AUC ROC-AUCとは、x軸をType I error、y軸をSensitivityとして、不正会計サンプルと非不正会計サンプルを判別するカットオフ値を変化させてプロットしたグラフ(ROC曲線)のうち、下部分の面積(AUC)である。この値が高いほどモデルの判別性能が高いと判断する。

(出所)著者作成。

2.3  レビュー対象論文の基本データ

表2には、レビュー対象論文の基本データとして、対象論文の著者と出版年、掲載誌領域、サンプルサイズ、対象の報告書、対象セクション、分類アルゴリズム、財務指標との比較・組み合わせの有無を示している。

表2 レビュー対象論文の基本データ

著者 出版年 掲載誌領域 サンプル(不正/非不正) 対象の報告書 対象セクション 分類アルゴリズム 財務指標との比較の有無 財務指標との組み合わせの有無
Goel et al. 2010 会計 405/622 10-K 全体 SVM, NB
Cecchini et al. 2010 情報工学 61/61 10-K MD&A SVM
Glancy & Yadav 2011 情報工学 69(学習)
11/20(テスト)
10-K MD&A クラスタリング
Humpherys et al. 2011 情報工学 101/101 10-K MD&A LR, SVM, C4.5, NB, LWL
Purda & Skillicorn 2015 会計 1,127/3,768 10-K,10-Q MD&A SVM
Goel & Uzuner 2016 会計 180/180 10-K MD&A SVM
Craja et al. 2020 情報工学 201/962 10-K MD&A LR, SVM, RF, XGB, ANN, DL
Brown et al. 2020 会計 505/37,301 10-K 全体 LR

表中の分類アルゴリズムの略称は次の通りである。LR(Logistic Regression)、SVM(Support Vector Machine)、RF(Random Forest)、NB(Naive Bayes)、LWL(Locally Weighted Learning)、XGB(XGBoost)、ANN(Artificial Neural Network)、DL(Deep Learning)。

(出所)著者作成。

出版年を見ると、2010年代初期に4本、2010年代中期に2本、2020年代に2本となっており、3つの時期に分けて研究が進んでいることが伺える。財務指標を特徴量とした不正会計検知モデルは、1990年代(e.g. Beneish, 1999)から研究がなされていることと比較すると、テキストマイニングによってテキストから特徴量を抽出し、不正会計検知モデルを構築している研究は、約20年遅れて始まっている。

掲載誌の領域として、会計領域の論文が4本、情報工学領域の論文が4本ある。これらの研究は、テキストマイニングや分類アルゴリズムを取り扱うことから、会計領域の学術雑誌だけでなく、情報工学の学術雑誌にも掲載されている。

サンプルサイズについては、不正会計と非不正会計サンプルの比率に研究間で違いはあるものの、Purda and Skillicorn(2015)Brown et al.(2020)以外の研究でマッチドサンプリングが採用されている。Brown et al.(2020)は、分析対象期間の上場企業のうち、不正会計企業ではないサンプルを全て非不正会計サンプルとしているため、サンプル間の不均衡が大きくなっている。

対象報告書を見ると、Purda and Skillicorn(2015)は、10-KとForm 10-Q(以下、10-Q)を併せて使用しているが、その他の研究は全て10-Kのみを分析対象の報告書としている。また、対象セクションは、Goel et al.(2010)Brown et al.(2020)は10-K全体を対象としており、その他の研究はMD&Aセクションのテキストを取り扱っている。MD&Aを対象とした理由として、①非監査で準義務的なセクションであるため、他のセクションよりも使用されている単語が多様になっており、テキストマイニングに有効である(Humphreys et al., 2011)、②不正会計を行っていることを知っている経営者自身が記述するセクションであるため、意図的に重要な情報を排除もしくは操作したことによる不正会計の手がかりが含まれている可能性がある(Glancy & Yadav, 2011Craja et al., 2020)、等が挙げられている。

分類アルゴリズムについて、SVM(6本)が最も多くの論文で採用されており、次いで多いのがロジスティック回帰(3本)である。SVMは、精度よく2値分類を行うことのできる分類アルゴリズムといわれており、多くの研究で採用されていると考えられる。また、ロジスティック回帰の分類精度は他の機械学習手法より劣るといわれているものの、解釈可能性が高いという利点があり、2020年代のCraja et al.(2020)Brown et al.(2020)においても採用されている。

最後に、財務指標を特徴量とした不正会計検知モデルとの精度比較や、財務指標とテキスト指標の特徴量の組み合わせの検証を行っているかを見る。2010年代初期はCecchini et al.(2010)のみが精度比較や組み合わせの検証を行っているのに対し、2010年代中期以降の研究ではこれらの検証結果が論文内で報告されるようになった。これらの検証を行う理由は、テキストから抽出した特徴量が不正会計検知に際し、財務指標を特徴量とした場合に比較してより有効であるか、あるいは補完的な関係があるか等を明らかにしたいためである。

本稿のレビュー対象論文の引用・被引用関係を図1にまとめている。図1の丸は論文を表しており、第1著者の姓が示されている。薄い灰色の丸は会計分野の学術誌に掲載されたことを、濃い灰色の丸は情報工学分野の学術誌に掲載されたことを意味している。縦軸は掲載年であり、下にいくほど新しい年である。

図1 レビュー対象論文の引用・被引用関係

(出所)著者作成。

図1から、2010年代初期の4つの論文は互いに引用・被引用関係にないことがわかる。2010年代中期のPurda and Skillicorn(2015)Goel and Uzuner(2016)は、初期の4つの論文を引用し、それらの研究成果を取り込んで発展させていることがわかる。2020年代の研究であるCraja et al.(2020)はそれまでの研究を全て引用し、テキストからの特徴量の抽出方法や、複数の分類アルゴリズムを使用する等の点でそれまでの研究を発展させている。一方、Brown et al.(2020)は、“bag of words”アプローチを採用したGoel et al.(2010)、Cecchini et al.(2011)、Purda and Skillicorn(2015)を引用し、これらの後続研究として位置づけていることが見て取れる。

2.4  2010年代初期の研究

2010年代初期の研究として、Goel et al.(2010)Cecchini et al.(2010)Glancy and Yadav(2011)Humpherys et al.(2011)の研究を取り上げる。これらの研究は、不正会計検知に際し、10-Kのテキストから抽出した特徴量が寄与することを探索的に明らかにした研究群と位置づけることができる。

Goel et al.(2010)は、10-Kを対象として、不正会計企業と非不正会計企業とを判別する言語的特徴を探索し、それらを特徴量とした不正会計検知モデルを構築した。著者らが調べた限り、不正会計検知モデルにテキストマイニングを取り入れた初めての研究である。

不正会計企業のサンプルは、1993年から2006年のAAERs(Accounting and Auditing Enforcement Releases)に掲載されていた140社のうち、修正再表示のされていないオリジナル10-Kの電子データを取得することができる126社(405件)である。非不正会計企業のサンプルは、不正会計企業と同業種で同規模の622件である。このデータに対する学習・検証方法として10分割交差検証を用いている。

Goel et al.(2010)は、10-K全体のテキストを対象として、単語の小文字化、句読点の除去、数字削除の前処理を行った。さらに、ストップワードの設定等の前処理を行っている。前処理後の学習データに対して、“bag of words”アプローチによって特徴量を抽出した。“bag of words”とは自然言語処理の形態素解析で用いられる手法の1つであり、文章中の単語の順序は無視され、各単語の出現回数を保持し、その出現回数を特徴量とする手法である。この特徴量を用いて、NBとSVMによる不正会計検知モデルを構築し、これをベースラインモデル(Model 1、Model 2)とした。

次に、Goel et al.(2010)は、不正会計企業と非不正会計企業を判別する言語的特徴を探索するために、29種類の言語的特徴を算出した。探索的アプローチを取っている理由は、不正会計企業と非不正会計企業の10-K全体で、どのように言語的特徴が異なっているかに関しての研究蓄積が十分でなかったためである。フォワードステップワイズを用いて、不正会計企業と非不正会計企業を判別する上位10種類の言語的特徴を選択した。上から順に、受動態の文の割合、能動態の文の割合、文長の標準偏差、読みやすさ、不確実性マーカーの頻度、従属接続詞で始まる文の割合、タイプ・トークン比、固有名詞の頻度、To be動詞の割合、tf-idfで重みづけされたトークンである。これらの特徴量を用いてSVMによる不正会計検知モデルの構築を行い、Model 3とした。

“bag of words”アプローチの特徴量を用いたベースラインモデル(Model 1、Model 2)と言語的特徴を使用した検知モデル(Model 3)の精度結果を表3パネルAに示す。表3パネルAの精度結果を見ると、言語的特徴を特徴量としてSVMによって構築されたModel 3のAccuracy(0.895)、Precision(0.847)、Type II error(0.101)、F1-measure(0.872)が最も良い値である。すなわち、“bag of words”アプローチの特徴量よりも、言語的特徴を使用した検知モデルのほうが不正会計検知には有効であることが示されている。

表3 Goel et al.(2010)Cecchini et al.(2010)Glancy and Yadav(2011)の不正会計検知モデルの精度

パネルA:Goel et al.(2010) パネルB:Cecchini et al.(2010) パネルC:Glancy & Yadav(2011)
Model 1 Model 2 Model 3 Model 1-a Model 1-b Model 2 Model 3 Model 1
特徴量: bag of words bag of words 言語的特徴 オントロジー(200) オントロジー(500) 財務指標 オントロジー(1,200)+財務指標 SVD
分類アルゴリズム: NB SVM SVM クラスタリング
Accuracy 0.568 0.717 0.895 0.754 0.754 0.402 0.820 0.839
Precision 0.757 0.847 0.714
Type I error 0.087 0.106 0.262 0.213 0.738 0.197 0.200
Type II error 0.585 0.101 0.230 0.279 0.459 0.164 0.091
F1-measure 0.536 0.872 0.800
F2-measure 0.500
ROC-AUC

表中のパネルAとパネルBにおいて、各検知精度のうち、最も値の良好なものを太字にしている。パネルCには、Glancy and Yadav(2011)において、検知モデルの精度は混合行列として示されていたため、その値から算出することのできた評価指標のみを載せている。

(出所)Goel et al.(2010)の表4・5・9、Cecchini et al.(2010)の表4・5、Glancy and Yadav(2011)の表3をもとに著者作成。

Cecchini et al.(2010)は、10-KのMD&Aセクションを対象として、重要な用語を集めた辞書(オントロジー)を作成し、不正会計検知モデル構築を行った。また、既存の財務指標の検知モデルとの代替・補完性を検証している。

不正会計企業のサンプルとして、1993年から2002年のAAERsから61社が選択された。非不正会計企業は同業種・同規模の企業61社が選択された。学習・検証方法として、小規模のデータセットを扱う場合の方法であるleave-one-out分析が用いられている。

Cecchini et al.(2010)は、不正会計企業と非不正会計企業を判別する重要な用語を集めたオントロジーを作成した。具体的には、まず、ストップワードの除去、品詞タグ付けといった前処理をする。次に、“bag of words”アプローチによって、各単語の出現回数を算出する。そして、WordNetを使用し、同じ意味を持つ単語を同一概念として統合する。最後に、統合された単語(以下、概念)から概念文書スコアと概念スコアを算出する。概念文書スコアとは、ある概念が不正会計企業の特定の文書と非不正会計企業の全ての文書とをよく判別することを意味する。概念スコアとは、コーパス内の文書間で多く出現する概念文書スコアに対する重み付けの値である。算出された概念スコアの高い順に概念を並べたものがオントロジーとなる。こうして作成したオントロジーを特徴量として、SVMによる不正会計検知モデルの構築を行い、これをModel 1とした。

Model 1と、Beneish(1999)の8つの財務指標を特徴量とする不正会計検知モデル(Model 2)の精度比較を行い、また、オントロジーと財務指標を組み合わせた検知モデル(Model 3)を構築することで、オントロジーと財務指標との代替性と補完性を検証している。その際、オントロジーを特徴量とするModel 1と3については、オントロジーサイズを10、20、30、40、50、100、200、300、400、500、1,200と変化させた場合の精度比較を行っている。本稿では、それぞれの検知モデルにおいて最も精度の高いオントロジーサイズ(Model 1:200と500、Model 3:1,200)の結果を表3パネルBに示している。表3パネルBの精度結果を見ると、オントロジーと財務指標を組み合わせたModel 3のAccuracy(0.820)、Type I error(0.197)、Type II error(0.164)が最も良い値である。従って、オントロジーと財務指標の間に不正会計検知における補完性があることが明らかになった。

Glancy and Yadav(2011)は、10-KのMD&Aセクションを対象とし、特異値分解(SVD)を用いて単語ベクトルの次元削減をした上で不正会計検知における重要な単語を導出し、クラスタリングを分類アルゴリズムとした不正会計検知モデルの構築を行った。

不正会計企業のサンプルとして、2006年から2008年のAAERsに掲載された企業を選択し、不正実施期間の最新の年度から1年前の10-Kを学習データとしている。なお、この際、同業種の企業を2社までとする制限をしている。非不正会計企業のサンプルは、不正会計企業と同業種・同規模の企業が選択された。学習サンプル全体は69件であるが、不正会計・非不正会計サンプルの内訳は示されていない。テストデータは、不正会計企業・非不正会計企業のそれぞれについて、同様の選定基準を満たした新しいサンプルであり、不正会計企業11社、非不正会計企業20社が選択された。

Glancy and Yadav(2011)は、対人欺瞞理論とメディア・リッチネス理論をもとに、不正会計企業と非不正会計企業のMD&Aセクションのテキストでは、単語の使用のされ方が異なっている可能性があると説明している。そして、出現単語の重要度をSVDによって算出し、その値をもとにクラスタリングして、不正会計企業と非不正会計企業のMD&Aの分類を試みている。具体的には、まず、MD&Aセクションのテキストに対し、句読点とストップワードの除去、同義語の統合、品詞のタグ付けの前処理を行う。次に、抽出した単語に対してSVDを行う。最後に、階層的クラスタリングによって不正会計検知モデル(Model 1)を構築した。この際、クラスター数を5、10、40と変化させたパターンを試し、最終的にどのクラスター数であっても、不正会計企業と非不正会計企業の2つのクラスターに収束した。

この検知モデルに対し、不正会計企業と非不正会計企業のテストデータを新たにクラスターに投入した場合の検知精度を表3パネルCに示す。表3パネルCの精度結果を見ると、Accuracy、Precision、F1-measureは、0.839、0.714、0.800と高水準となっており、Type I error、Type II errorは、それぞれ0.200と0.091で、誤判別の割合の少ない良好な検知精度の不正会計検知モデルを構築できていることがわかる。

Humpherys et al.(2011)は、不正会計検知モデルにおける不正会計企業と非不正会計企業を判別する特徴量をテキストから抽出するために、コミュニケーションと心理学分野の欺瞞に関する複数の理論を提示した。Humpherys et al.(2011)で提示された理論は、情報操作理論、対人欺瞞理論、経営者難読化仮説、リアリティ・モニタリング、Criteria-Based Content Analysis(CBCA)、Scientific Content Analysis(SCAN)、Leakage Theoryである。これらの理論をもとにして、前処理として数字削除、品詞のタグ付けを行い、活性化語・感情語割合、文長や単語長の平均値、動詞・名詞の割合、語彙の多様性、五感や時間・空間を表した単語割合等の24変数を作成した。また、より簡潔に解釈するために、24変数のモデルに対して主成分分析によるデータの次元削減を行い、10変数としている。

分類アルゴリズムとして、複数の統計的手法と機械学習手法を用い、不正会計検知モデルの精度比較を行っている。統計的手法としてはロジスティック回帰、機械学習手法として、C4.5、LWL、NB、SVMを用いている。24変数と10変数を特徴量として、それぞれの分類アルゴリズムを用いた場合の精度を比較したところ、10変数を特徴量とした場合に検知精度が高い傾向にあった。そこで、本稿では10変数を特徴量とした場合のLRモデル(Model 1)、C4.5モデル(Model 2)、LWLモデル(Model 3)、NBモデル(Model 4)、SVMモデル(Model 5)の精度結果を表4に示す。

表4 Humpherys et al.(2011)の不正会計検知モデルの精度

Model 1 Model 2 Model 3 Model 4 Model 5
特徴量: 10変数
分類アルゴリズム: LR C4.5 LWL NB SVM
Accuracy 0.634 0.673 0.604 0.673 0.658
Precision 0.680 0.606 0.667 0.643
Type I error 0.333 0.386 0.347 0.396
Type II error 0.347 0.406 0.307 0.287
F1-measure 0.667 0.600 0.680 0.676
F2-measure
ROC-AUC

各検知精度のうち、最も値の良好なものを太字にしている。

(出所)Humpherys et al.(2011)の表6・8をもとに著者作成。

表4の精度結果を見ると、Accuracy(0.673)、Precision(0.680)、Type I error(0.333)の値が最も良かったのはC4.5を用いた検知モデル(Model 2)で、Accuracy(0.673)、F1-measure(0.680)の値が最も良かったのはNBを用いた検知モデル(Model 4)であった。すなわち、これら2つの検知モデルは、他のモデルに比較して全体の的中率や不正会計の検知に有効であることが示されている。SVMを用いた検知モデル(Model 5)はType II errorが最も低い(0.287)ため、不正会計の誤判別が少ないモデルとなっている。

2.5  2010年代中期の研究

2010年代中期の研究は、2010年代初期の研究を基礎として、“bag of words”アプローチによる不正会計検知モデルを構築したPurda and Skillicorn(2015)とポジティブ・ネガティブ等の言語的指標による不正会計検知モデルを構築したGoel and Uzuner(2016)に分かれる。

Purda and Skillicorn(2015)は、10-Kと10-QのMD&Aセクションを対象とし、Goel et al.(2010)Cecchini et al.(2010)のように“bag of words”アプローチをもとに不正会計検知モデルの構築を行った。構築した検知モデルによって、真実な報告書である確率を算出している。

不正会計企業のサンプルとして、1994年から2006年のAAERsに掲載されている企業240社のうち、10-Kと10-Qを取得できた1,127件が選択された。非不正会計企業のサンプルは、不正会計企業の不正会計を行っていない期間の10-Kと10-Qとし、3,768件が選択された。

不正会計検知モデルは、前処理として法的免責事項の削除、品詞のタグ付けを行った上で、①10-Kと10-QのMD&Aセクションにおける単語の頻度表を作成、②RFを用いて分類力の高い単語リストの作成、③作成した単語リストをもとに、SVMを用いた検知モデルの構築という3つの手順を経て構築されている。

手順①では、MD&Aセクションに現れる単語を品詞の用法などに基づいて特定し、単語の頻度表を作成する。手順②では、頻度表から最も頻度の高い1,100単語を選択し、RFを用いて各単語の不正会計・非不正会計企業の分類能力のランク付けを行う。この段階で総サンプルのうち、75%を学習データに、25%をテストデータにランダムに分割する。そして、学習データに対して3,000個の決定木を構築し、構築中に使用された単語の頻度に従って単語のランク付けを行い、ランク順リストを作成する。単語のランク順リストの上位に位置する単語は、真実である報告書(非不正会計企業の報告書)と不正会計企業の報告書を高い精度で分類する。手順③では、単語のランク順リストの上位200語を特徴量として、SVMを用いて各報告書が真実である確率(以下、真実確率)を算出する不正会計検知モデル(Model 1)を構築する。この真実確率が0.8以上の場合に不正会計企業と判定し、0.8を下回る場合に非不正会計企業と判定する。

25%のテストデータに対して、Model 1を使用して不正会計企業を検知した場合の検知精度を表5パネルAに示す。表5パネルAを見ると、Accuracy、ROC-AUCが0.830、0.890となっていることから、不正会計企業(期間)と非不正会計企業(期間)の全体の判別率が高い検知モデルといえる。ただし、Precision(0.595)やF2-measure(0.428)の値を見ると、不正会計企業(期間)の的中率は若干低くなっている。

表5 Purda and Skillicorn(2015)Goel and Uzuner(2016)の不正会計検知モデルの精度

パネルA:Purda & Skillicorn(2015) パネルB:Goel & Uzuner(2016)
Model 1 Model 1 Model 2 Model 3 Model 4
特徴量: 上位200語 ポジ・ネガと主観語を含む感情語 品詞情報 Model 1+Model 2 上位10個
分類アルゴリズム: SVM SVM
Accuracy 0.830 0.717 0.740 0.802 0.818
Precision 0.595 0.750 0.765 0.780 0.789
Type I error 0.164 0.217 0.211 0.239 0.233
Type II error 0.193 0.350 0.311 0.156 0.128
F1-measure 0.685 0.696 0.725 0.811 0.829
F2-measure 0.428
ROC-AUC 0.890

表中のパネルAには、Purda and Skillicorn(2015)において、検知モデルの精度は混合行列として示されていたため、その値から算出できた検知精度と、論文内に予め示されていたROC-AUCを載せている。表中のパネルBにおいて、各検知精度のうち、最も値の良好なものを太字にしている。

(出所)Purda and Skillicorn(2015)の表1・4、Goel and Uzuner(2016)の表8をもとに著者作成。

さらに、Purda and Skillicorn(2015)は、Model 1で算出した真実確率と財務指標を特徴量としたFスコアモデル(Dechow et al., 2011)に着目し、それぞれの閾値を0.8と1.0とした場合の不正会計企業と非不正会計企業の判別結果を比較している。結果として、真実確率とFスコアで、サンプルのうち不正会計企業として正しく検知した企業がそれぞれ異なり、MD&Aのテキストをベースに算出した真実確率と財務指標をベースとして算出したFスコアには、不正会計企業の検知にあたり、補完的な関係があることがわかった。

Goel and Uzuner(2016)は、10-KのMD&Aセクションを対象とし、テキストに表現されるポジティブ・ネガティブという極性や、主観語・強調語等の感情特徴に関する言語的指標を特徴量として使用し、SVMによる不正会計検知モデルの構築を行った。

不正会計企業のサンプルとして、1994年から2012年のAAERsに掲載された企業とし、複数のAAERsが発行されている企業に対しては、サンプルに1回のみ含むこととした。結果的に180社が選択された。非不正会計企業のサンプルとして、不正会計企業と同業種、同規模、同年の180社が選択された。このデータに対する学習・検証方法として10分割交差検証を行っている。

Goel and Uzuner(2016)は、不正会計企業と非不正会計企業のMD&Aを分類するためのテキスト中における感情特徴を抽出するために、金融領域の感情分析の先行研究で示された3つの辞書と品詞特徴を用いた。1つ目の辞書は、Loughran and McDonald(2011)(以下、LM)の金融感情辞書、2つ目は、Wilson et al.(2005)の多視点質問応答(以下、MPQA)主観性辞書、3つ目は、Pennebaker et al.(2007)のLinguistic Inquiry and Word Count(以下、LIWC)である。辞書ベースで特徴量を抽出するにあたり、前処理として財務情報を含む表と数値の削除を行い、LMの金融感情辞書を使用してMD&Aセクションから、LM positive、― negative、― modal strong、― modal weakの4つの特徴量を抽出した。MPQA主観性辞書を用いて、MPQA subjective、― positive、― negative、― neutralの4つの特徴量を抽出した。LIWCによって、LIWC positive emotion、― negative emotion、― anxiety、― anger emotion、― sadness、― affectの6つの特徴量を抽出した。これらの辞書ベースの特徴量に加え、品詞情報として9つの特徴量を抽出している。

これらの特徴量をもとに、特徴量の組み合わせや特徴量選択を行った不正会計検知モデルを構築した。まず、辞書ベースで抽出した11個の特徴量を使用した検知モデル(Model 1)である。次に、品詞情報に関する9個の特徴量を使用した検知モデル(Model 2)である。続いて、Model 1とModel 2の特徴量を組み合わせた検知モデル(Model 3)である。最後に、抽出したすべての特徴量23個からχ2検定によって特徴量選択を行い、上位10個の特徴量を使用した検知モデル(Model 4)である。Model 4において選択された特徴量は、LM positive、LM negative、MPQA subjective、LIWC affect、動詞・形容詞・副詞・最上級形容詞・最上級副詞・形容詞を修飾する副詞の頻度である。

精度結果を表5パネルBに示す。精度結果を見ると、特徴量選択を行ったModel 4のAccuracy(0.818)、Precision(0.789)、Type II error(0.128)、F1-measure(0.829)の値が他のモデルに比較して最も良好な値を示している。すなわち、LM辞書で測定するポジティブ・ネガティブの極性、MPQA辞書で測定する主観語、LIWCで測定する影響感情語の他に、名詞や動詞を強調する(最上級)形容詞・(最上級)副詞の使用割合を組み合わせることによって、不正会計を行っている企業のMD&Aを判別することができていることがわかる。

2.6  2020年代の研究

Craja et al.(2020)Brown et al.(2020)を取り上げる。それまでの研究が“bag of words”アプローチを取る場合に、テキストを単語(形態素)レベルに分割して処理していたのに対し、文章の構造や文脈(Craja et al., 2020)を取り入れたり、単語間の共起関係に基づくトピック(Brown et al., 2020)として取り扱おうとしている点で発展している。

Craja et al.(2020)は、10-KのMD&Aセクションを対象とし、DLを用いてテキストデータに対する処理を行い、不正会計検知モデルを構築した研究である。さらに、特徴量として、先行研究で示された財務指標や、“bag of words”に基づく指標、その他の言語的特徴を用い、これらの特徴量に対してDLで抽出したテキストの変数が追加的な不正会計検知の効果を保持しているかを明らかにしている。なお、検知モデルの構築には、複数の学習器(LR、RF、SVM、XGB、ANN)を使用し、学習器間による精度比較も行っている。

不正会計企業のサンプルは、1995年から2016年のAAERsに掲載されている企業の10-Kのうち、テキストデータと財務データが抽出できた201件である。非不正会計企業のサンプルは、不正会計企業と同業種・同年の企業の10-Kから、大半の企業が不正会計を行っていないという状態を考慮し、不正会計企業:非不正会計企業の比率が1:4となるようランダムに選択された962件である。

Craja et al.(2020)は、先行研究で用いられている“bag of words”に基づく指標に加え、DLを用いて文章の構造や文脈情報を保持した指標(TXT)を作成した。これにより、不正会計を行う兆候を示す単語だけでなく文章を抽出することができる。作成した指標(TXT)を用いた検知モデル(Model 1)と、“bag of words”に基づく指標を用いた検知モデル(Model 2)、Beneish(1999)Dechow et al.(2011)で提示された47の財務指標(FIN)を用いた検知モデル(Model 3)、ポジティブ・ネガティブな単語割合や可読性等の9つの言語的指標(LING)を用いた検知モデル(Model 4)を構築し、精度比較を行った。

各特徴量に対し、複数の学習器(LR、RF、SVM、XGB、ANN)を使用し、学習器間における精度比較を行っている(LR:a、RF:b、SVM:c、XGB:d、ANN:e)。ただし、TXTにおいては、特徴量抽出と分類アルゴリズムにDLを使用しているため、他の分類器は使用されていない。検知モデルの精度結果を表6に示す。

表6 Craja et al.(2020)の不正会計検知モデルの精度

Model 1 Model 2-a Model 2-b Model 2-c Model 2-d Model 2-e
特徴量: TXT bag of words
分類アルゴリズム: DL LR RF SVM XGB ANN
Accuracy 0.845 0.823 0.868 0.880 0.885 0.899
Precision
Type I error 0.110 0.173 0.062 0.246 0.142 0.057
Type II error 0.200 0.267 0.283 0.162 0.234 0.288
F1-measure 0.574 0.571 0.710 0.588 0.626 0.729
F2-measure 0.798 0.815 0.900 0.773 0.845 0.899
ROC-AUC 0.911 0.837 0.874 0.883 0.879 0.883
Model 3-a Model 3-b Model 3-c Model 3-d Model 3-e
特徴量: FIN
分類アルゴリズム: LR RF SVM XGB ANN
Accuracy 0.825 0.865 0.828 0.848 0.679
Precision
Type I error 0.246 0.211 0.218 0.128 0.343
Type II error 0.317 0.233 0.383 0.334 0.217
F1-measure 0.477 0.551 0.463 0.584 0.456
F2-measure 0.748 0.789 0.760 0.839 0.684
ROC-AUC 0.762 0.861 0.756 0.847 0.756
Model 4-a Model 4-b Model 4-c Model 4-d Model 4-e
特徴量: LING
分類アルゴリズム: LR RF SVM XGB ANN
Accuracy 0.828 0.842 0.828 0.834 0.668
Precision
Type I error 0.381 0.280 0.325 0.055 0.325
Type II error 0.300 0.250 0.300 0.633 0.367
F1-measure 0.396 0.484 0.429 0.449 0.396
F2-measure 0.640 0.730 0.686 0.839 0.676
ROC-AUC 0.671 0.771 0.741 0.722 0.678

TXT以外の特徴量について、各検知精度のうち、最も値の良好なものを太字にしている。

(出所)Craja et al.(2020)の表8をもとに著者作成。

精度結果を見ると、DLを用いて作成したTXTによるModel 1のROC-AUCが0.911と最も高い値を示している。“bag of words”に基づく指標を用いたModel 2の中では、ANNを分類アルゴリズムに使用したModel 2-eにおいてAccuracy(0.899)、Type I error(0.057)、F1-measure(0.729)と、他の分類アルゴリズムを使用したモデルと比較して最も良い値を示している。財務指標(FIN)を用いたModel 3の中では、RFを使用したModel 3-bにおいてAccuracy(0.865)とROC-AUC(0.861)が、XGBを使用したModel 3-dにおいてType I error(0.128)、F1-measure(0.584)、F2-measure(0.839)が最も良好な値を示している。言語的指標(LING)を用いたModel 4の中では、RFを使用したModel 4-bにおいてAccuracy(0.842)、Type II error(0.250)、F1-measure(0.484)、ROC-AUC(0.771)が最も良好な精度となっている。従って、①Craja et al.(2020)の提案したDLを用いて推定したTXTを特徴量とする不正会計検知モデルは、その他の特徴量と分類アルゴリズムを組み合わせたモデルよりも最も高いROC-AUCを示すこと、②投入する特徴量によってそれぞれ最も良好な精度結果を示す分類アルゴリズムが異なっていることがわかった。

Brown et al.(2020)は、10-K全体を対象として不正会計検知モデルにトピックモデルを取り入れた最初の研究である。また、既存の財務指標による不正会計検知モデルとテキストスタイルを特徴量とした不正会計検知モデルとの比較、各特徴量を組み合わせた際の不正会計検知モデルの補完性テストを行っている。

不正会計企業のサンプルは、3つのデータソース(AAERs、AAs、10-K/As)から特定している。本稿では、このうち、AAERsから特定したサンプルについての結果を説明する。不正会計企業のサンプルは、1994年から2010年のAAERsに掲載された企業の10-Kのサンプルのうち、財務諸表と株式市場のデータを収集できた505件である。非不正会計企業のサンプルは、同じようにデータを収集できた37,301件とした。このデータに対する学習・検証方法として各5年間のデータ(学習データ)を使用し不正会計検知モデルを推定し、翌年のデータ(テストデータ)に対して検知するローリングを行っている。

Brown et al.(2020)は、不正会計企業は企業業績のポジティブなトピックをより多く開示する一方で、企業業績の源泉に関する詳細なトピックを少なくするという傾向があることを明らかにしたHoberg and Lewis(2017)の研究をもとに、不正会計検知モデルにトピックモデルを取り入れた。トピックを特徴量として不正会計検知モデルに取り入れることにより、経営陣がどのように記述しているのかではなく、何を開示しているのかに焦点を当てた検知モデルを構築している。サンプルに対する前処理として、ストップワードの設定、数字・記号の除去を行った。

トピックの推定方法として、LDAトピックモデリング手法を用いている。LDAは、事前に決められた単語辞書やトピックカテゴリーを必要とせず、頻繁に共に現れる単語同士は意味的に関連があるとしている。5年間ごとのローリングでトピックを推定すると、14回のローリングにおいてそれぞれ31のトピックを発見した。それらのトピックを集約させると分析対象期間中に64のトピックが現れた。

推定したトピックを特徴量とした検知モデル(Model 1)の検知精度を、Dechow et al.(2011)Farber(2005)Doyle et al.(2007)Ashbaugh-Skaife et al.(2008)で提示されている変数を加えた17変数の財務指標による検知モデル(Model 2)と、ポジティブ・ネガティブな単語割合や可読性等の言語的特徴に加え、箇条書きの数や改行の数等のテキストスタイルを特徴量とした検知モデル(Model 3)の検知精度と比較している。また、それぞれの特徴量を組み合わせた検知モデル(Model 4-a, 4-b, 4-c, 4-d)を構築し、補完性テストを行っている。検知モデルの構築には、ロジスティック回帰を用いている。投入する変数の数が多いため、QR分解することでロジスティック回帰を収束させている。

構築された検知モデルの精度はROC-AUCによって評価されている。トピックを特徴量としたModel 1(0.680)とテキストスタイルを特徴量としたModel 3(0.649)よりも、財務指標を特徴量としたModel 2(0.708)のROC-AUCが高い。さらに、①特徴量を組み合わせた検知モデル(Model 4-a、4-b、4-c)は、それぞれの特徴量のみを使用した検知モデルよりもROC-AUCが高いこと、②全ての特徴量を組み合わせたModel 4-dにおいて0.752と最も高いROC-AUCが示されており、トピック・財務指標・テキストスタイルの間には不正会計検知に関して補完性があることが明らかになった。

3.  テキストマイニングを使用した不正会計検知モデル構築の研究における課題と展望

本節では、テキストマイニングを使用した不正会計検知モデル構築の研究における課題と展望について検討する。課題と展望は大きく分けて次の5つである。

第1に、10-Kのテキストからテキストマイニングにより特徴量を抽出した研究は、大きく、心理学の欺瞞に関する理論を土台とした言語的特徴を特徴量とする研究の流れ(Goel et al., 2010Humpherys et al., 2011Goel & Uzuner, 2016)と、不正会計と非不正会計サンプルの10-Kのテキストに使われる単語が違う可能性を背景に、不正会計と非不正会計サンプルを判別する単語を帰納的に抽出する“bag of words”アプローチを採用する研究の流れ(Goel et al., 2010Cecchini et al., 2010Glancy & Yadav, 2011Purda & Skillicorn, 2015Craja et al., 2020Brown et al., 2020)に大別され、検知精度を比較すると、“bag of words”が優勢のように思われる。この流れを受ければ、今後は、トピックモデルや文脈構造の加味以外にも、“bag of words”アプローチを発展させた研究が蓄積されていくかもしれない。なお、その際は、帰納的に特徴量を抽出しているため、なぜその特徴量が不正会計検知に寄与したのかについての解釈と理論化が必要である。

第2に、テキストから抽出した特徴量と財務指標の特徴量の代替・補完関係について、先行研究の結果からは、両者の間に補完関係があることが示されている。今後の研究では、テキストに関する特徴量と財務指標の特徴量を組み合わせた精度比較を行う際、どのような財務指標を特徴量とするかを深耕する必要がある。レビューした先行研究では、Beneish(1999)Dechow et al.(2011)を参照して財務指標を測定している研究が多く、Brown et al.(2020)のみが、Dechow et al.(2011)の財務指標に他の研究(Farber, 2005Doyle et al., 2007Ashbaugh-Skaife et al., 2008)で提示された指標を追加して使用している。財務指標を用いた不正会計検知モデルの構築研究として他に、ローデータを説明変数としたBao et al.(2020)佐藤他(2023)、日本特有の要因を説明変数として組み込んだ首藤他(2016)等がある。これらのような先行研究も参照しながら、テキストから抽出した特徴量と高い補完関係を有する財務指標を明らかにする必要がある。

第3に、サンプル企業の報告書における分析対象を、MD&Aセクションに限定するか、限定せずに報告書全体を対象とするかを比較・検討する必要がある。レビューした論文の中では、MD&Aセクションに限定した研究の方が多い傾向にある。この理由として、不正会計を行っていることを認知している経営者が、MD&Aセクションに会社の業績や将来性について記述するため、読み手を欺こうとした際の言語的特徴が現れやすく、不正会計の手がかりを検出しやすい点にある。対して、分析対象を報告書全体とした研究は、Goel et al.(2010)Brown et al.(2020)である。読み手のMD&Aセクションへの注目度が高いことを自覚している経営者は、意図的にMD&Aセクションには不正会計を示唆するような情報を記載せず、複数のセクションにわたって記述内容を調整している可能性があることから、報告書全体から経営者の思惑を掴もうとしている。経営者によって、どちらのパターンも選択されている可能性があり、分析対象をMD&Aセクションとした場合と報告書全体とした場合のそれぞれについて検知モデルを構築し、精度比較や結果の解釈を行う必要がある。

第4に、クロスセクションデータを学習・検証データとする研究として、非不正会計サンプルの抽出をマッチドサンプリングではなく、市場全体のうち、不正会計を行っていない企業とする研究蓄積が求められる。このようなサンプリングを行った研究として、Brown et al.(2020)があるが、他の研究ではマッチドサンプリングが採用されている。財務指標を特徴量とした研究群に目を移すと、非不正会計企業を市場全体のうち、不正会計を行っていない企業として定義している研究が多い(e.g. Dechow et al., 2011佐藤他, 2023)。この意図は、不正会計検知モデルの利用者(監査人、投資家、規制当局等)が、市場全体のサンプルをこのモデルで推定した場合に、適切に不正会計企業を検知することが期待されているためである。なお、これに関連して、評価指標については先行研究の指標を再考する必要があるかもしれない。というのも、本稿で取り上げている研究で使用されている評価指標は、どれも不均衡データに対して推定した場合に均衡データに対して推定した場合よりも、過剰評価や過小評価されてしまう問題を含んでいる。この問題に対して、例えば、ROC-AUCについては、PR-AUCを使用することで緩和することができるといわれており、どの評価指標を用いて検知モデルの精度比較を行うかについて検討する必要がある。

第5に、時系列データによるモデリングを行う研究が必要である。監査の現場では、前年度に不正会計を行っていなかった企業が、不正会計を行い始める傾向を早急に検知し、不正会計実施期間を特定することが求められる。レビューした論文のうち、時系列を加味したサンプリングとモデリングを行った研究には、Goel et al.(2010)Purda and Skillicorn(2015)Brown et al.(2020)の3つが該当する。Purda and Skillicorn(2015)では、テキストから作成した特徴量が、不正会計実施期間を特定する時系列分析に有効であることが確認されている。また、Brown et al.(2020)では、検知モデルの学習・検証方法にローリングが採用されており、時間によって変化していく不正会計企業のテキストの特徴を掴むことができるのではないかと考えられる。

4.  おわりに

本稿は、テキストマイニングを利用した不正会計検知モデル構築研究をレビューし、残された課題や展望を論じた。提示した5つの課題・展望を踏まえ、今後は、日本企業を対象にして、有価証券報告書等のテキストから特徴量を抽出し、検知モデルを構築する必要がある。

本稿の限界は2つある。第1に、決算説明会の謄本等を対象にした研究(e.g. Larcker & Zakolyukina, 2012)を含めることができていない。10-K等の報告書で使用される書き言葉と、自社の不正会計を認識している経営陣の決算説明会等における話し言葉では、不正会計の言語的兆候が異なっている可能性がある。第2に、前処理について、レビューした先行研究では、ある程度の統一された方法(数値・表の除去、単語の小文字化、品詞の付与等)が確立されていたが、日本語で書かれている報告書を対象とする際には、日本語のテキストに対する前処理が必要である。これについては、本稿のレビューでは明らかにできないため、日本語を対象としたテキストマイニングの前処理に関する論文等を参照する必要がある。

参考文献
 
© 2024 The Research Institute for Innovation Management of Hosei University
feedback
Top