否決先の情報を活用した教育ローン向け信用スコアリングモデル

戸城 正浩; 引寺 佑輔; 尾木 研三; 枇々木 規雄

doi:10.32212/jafee.24.0_1

概要

本研究では、融資の可決先のデフォルトの有無に加えて、否決先のデータも考慮した教育ローン向け信用スコアリングモデルを構築する。日本政策金融公庫国民生活事業本部の2011～2017年度の融資申込顧客の約77万件のデータ(インサンプル)を用いて、2つの評価モデルを構築し、2018～2021年度の融資申込顧客の約46万件のデータ(アウトオブサンプル)を用いて、評価を行った。信用スコアリングモデルとして、ロジスティック回帰を用いた否決評価モデルとデフォルト評価モデルの2つのモデルを構築し、データを用いて要因の違いを確認する。それぞれのモデルから算出された否決スコアとデフォルトスコアを統合した信用スコアの算出方法を提案する。さらに「否決またはデフォルト」と「非デフォルト」を判別するために、その予測と結果の適合度を評価する方法も示す。アウトオブサンプルデータに対する信用スコアを算出し、AUCを用いて信用スコアの算出方法を比較する。統合した信用スコアは、可決先のみの情報を用いて推計したデフォルトスコアを用いたときに比べて安定的にAUCが5ポイント上回り、可決先に加えて、否決先の情報をともに活用することによって、審査の効率化に貢献することを明らかにした。

1　はじめに

2021年度「教育費負担の実態調査結果」(日本政策金融公庫(2021))によると、子供1人当たりに必要な教育費用は、高校3年間で261.8万円、大学に入学した場合680.7万円が加わり、高校入学から大学卒業までに必要な入学・在学費用の合計は、942.5万円である。高校卒業後の進学先別にみると、私立大学に入学した場合、文系で951.6万円、理系で1,083.4万円、国立大学では743.0万円となる。世帯年収に占める年間在学費用の割合は、平均で14.9%、年収階層別にみると、年収が低い「200万円以上400万円未満」の世帯では26.7%も占め、教育費用が保護者の経済的負担となっている。

資金使途を教育費用に特化させた融資商品が教育ローンであり、銀行をはじめとした数多くの金融機関が取り扱っている。主に保護者に対して、高校や大学などの教育機関に支払う入学金や授業料のほか在学に必要となる教育費用(パソコン購入代や教科書代など)を融資している。融資の条件は金融機関によって異なるが、借入可能額は10万円～1,000万円程度、返済期間の上限は10年程度で、在学中は利息のみの支払いが可能であり、元金の返済には据え置き期間を設けている。

公的機関では、株式会社日本政策金融公庫国民生活事業本部（以下、公庫）の「国の教育ローン」と独立行政法人日本学生支援機構の奨学金がある¹⁾。「国の教育ローン」は、1979年に「教育に関する家庭の経済的負担の軽減と教育の機会均等を図る」ことを目的に創設され、中学卒業以上の入学・在学資金を主に保護者に融資する制度である。融資の対象となる条件として、扶養人数に応じて世帯年収の上限額を設けている。2021年度の融資件数は約９万件に上っている。一方で平均融資金額は、表1のとおり、進学先別に異なるが、大学の場合でも155万円と、住宅ローンや事業資金融資と比べて小口となっている。

表1: 進学先別融資件数構成比および平均融資金額（2021年度「国の教育ローン」）

進学先	大学	短大	専修学校	高校	外国の大学等	高専, 大学院, その他	全体
融資件数(構成比)	49.3%	3.8%	27.1%	11.9%	1.3%	6.5%	100.0%
平均融資金額（万円）	155	143	147	106	240	145	147

日本学生支援機構の奨学金は、卒業後に返済が必要な貸与奨学金と返済が不要の給付奨学金がある。貸与奨学金は、保護者ではなく、学生本人に融資を行う制度である。卒業後、学生本人が返済していく。日本学生支援機構(2024)によると、2023年度に貸与した奨学生数は約111万人で、8,329億円の奨学金を貸与している。また、2023年3月に貸与が終了した奨学生の1人あたりの平均貸与総額および平均返還年数は、第一種奨学金(無利子)が202万円(14年)、第二種奨学金(有利子)が333万円(17年)であり、「国の教育ローン」の平均融資金額に比べて、相対的に高くなっている。

多くの金融機関は、教育ローンの融資審査に信用スコアリングモデルを活用している。一般的には、ロジスティック回帰分析などの統計手法により、借入申込書の記載事項（年収や勤続年数など）である顧客属性およびクレジットヒストリーを説明変数として、デフォルト確率を求め、それに応じた信用スコアを算出する。

信用スコアリングモデルは、主に事業資金融資を対象に、数多くの研究が行われている。米国における中小企業向け融資(Altman and Sabato(2008))、日本における小企業向けの事業資金融資(尾木ら(2016), Toshiro et al.(2019))、また、入出金情報を考慮したモデル(Yao et al.(2017), 三浦ら(2020))など、様々な研究が行われている。一方、教育ローンに関してもデフォルト要因の分析²⁾、信用スコアリングモデル構築の先行研究も数多く行われている。ロジスティック回帰モデル(Herr and Burt(2005), 枇々木ら(2011), Bandyopadhyay(2016), Han et al.(2015))を中心に、近年では、機械学習モデルを用いた研究も行われ始めている(Jayadev et al.(2021), Wang et al.(2023))。これらのモデルにおいては、顧客属性、融資条件およびクレジットヒストリーを説明変数、デフォルトの有無を被説明変数としたモデルを構築している。表2に先行研究および本研究の特徴を示す。

表2: 教育ローン向け信用スコアリングモデル

著者 (年)	Herr and Burt (2005)	枇々木ら (2011)	Bandyopadhyay (2016)	Han et al. (2015)	Jayadev et al. (2021)	Wang et al. (2023)	本研究 (2025)
国	米国	日本	インド	韓国	インド	中国	日本
顧客	学生本人	学生の保護者	学生本人	学生本人	学生本人	学生本人	学生の保護者
モデル構築に用いるデータ	可決先（1,306先）	可決先（276,477先）	可決先（5,000先）	可決先（626,757先）	可決先 (25,944先)	可決先 (18,000先)	否決先・可決先 (約123万先)
構築手法	ロジスティック回帰	ロジスティック回帰	ロジスティック回帰	ロジスティック回帰	ロジスティック回帰機械学習モデルディープラーニング	機械学習モデル	ロジスティック回帰
被説明変数	デフォルトの有無	デフォルトの有無	デフォルトの有無	デフォルトの有無	デフォルトの有無	デフォルトの有無	(†) 融資の可否 (‡) デフォルトの有無
説明変数	・顧客属性・融資条件	・顧客属性・クレジットヒストリー	・顧客属性・融資条件	・顧客属性・融資条件	・顧客属性・融資条件・地理的条件・マクロ経済要因	・顧客属性・学業成績	・顧客属性・クレジットヒストリー
評価尺度	擬似R²	AR値	擬似R²	・AR値・擬似R²	・AUC ・Balanced Accuracy ・F-measure	・Accuracy ・Precision ・Recall ・F1-score	AUC

† 全データ(可決先・否決先）を用いる場合、‡ 可決先データのみを用いる場合

先行研究では、表2に示すように、デフォルトの有無を判別するモデルを構築しているが、審査の結果、否決となった顧客の情報は、デフォルトの有無が分からないため、それを考慮したデフォルト評価モデルの構築および評価は行われておらず、審査で可決されて融資した顧客である可決先のみの情報を用いてモデルを構築し、分析を行っている。Jayadev et al.(2021)は結論の中で論文の限界として、対象とするデータが承認された融資のみであることを挙げている。

一方で、デフォルトの有無が分からない否決先の情報を使った信用スコアリングモデルの研究は、リジェクト推論(reject inference)の分野で多く存在する。Mancisidor et al.(2020)はリジェクト推論に関する先行研究を一覧表にまとめている。Hand(1998)は信用スコアリングモデルにおいて、否決先に関する情報をどのように考慮するかについて議論している。リジェクト推論は否決先のデフォルト率を推論する方法で、Nguyen(2016)は手法を5つ(①Manual estimation、②Similar in-house or Bureau data-based method、③Reweighting、④Extrapolation、⑤Heckman’s two-step correction method)に分類し、それらの長所と短所を比較している。さらに、フランスの大手銀行のデータを用いて、5つの手法(KGB model, Reweighting, Parceling, Fuzzy augmentation, Heckman’s bivariate two-stage model)に対する推定結果を示している。ただ、リジェクト推論によって否決データを無視する場合と異なるパラメータが推定されることは示されているが、信用スコアリングモデルの性能を本当に改善できるかどうかはまだよくわかっていない。

実務においては、図1のようにデフォルト評価モデルを利用して計算されたスコアを用いて、審査を行い、「可決・否決」を評価する。そして、モデルで否決と評価されたスコアの低い顧客に対して人的審査を行い(可決への変更を考慮して)、最終的に「可決・否決」を判断するというスキームを採用している金融機関が多くなっている。デフォルト評価モデルは否決先の顧客を考慮していないという問題点はあるものの、審査の効率性を高めるためにモデルを利用することの有用性は高い。

図1: 融資業務におけるモデルを用いた審査プロセス

図1に示すように、人的審査の結果も含めて、可決した顧客は返済力が十分あり(家計収支の均衡がとれていて、諸支払いが正常に行われており)、審査時点ではデフォルトする可能性は低い顧客と評価している。そのように考えると、可決した顧客と否決した顧客は属性が異なる可能性が高い。しかし、申込顧客には否決先の属性を持つ顧客も含まれる。したがって、可決先のみで構築されたスコアリングモデルでは、否決先の情報を反映していないため、すべての顧客に対して融資の「可決・否決」を審査するモデルとして活用するには不十分な可能性がある。著者らの知る限りにおいて、教育ローン向け信用スコアリングモデルの分野で否決先の情報をモデルの構築に使った研究は存在しない。そこで、本研究では、リジェクト推論の手法を参考にしつつ、ロジスティック回帰分析を用いて、「デフォルト・非デフォルト」を判別する要因と融資の「可決・否決」を判別する要因に違いがあるかどうかを示し、否決先の情報を反映することの有用性を明らかにする。そして、さらに各年度における可決割合とデフォルト率の関係に基づき、否決先のデフォルト率が高いという仮定のもとで否決先とデフォルト先を取り扱い、その評価を行う。

リジェクト推論を行う手法であるHeckmanの2段階法(Heckman’s two-step correction method)においても可決・否決を評価するモデルと非デフォルト・デフォルトを評価するモデルをもとに分析している(Marshall et al.(2010), Nguyen(2016), Ogundimu(2024), Wu and Hand(2007))。この手法は可決・否決を評価するモデルを用いて得られた逆ミルズ比によって、サンプルセレクションバイアスを考慮し、非デフォルト・デフォルトを評価するモデルの構築(パラメータの推定)を行っている。それに対して、本研究では実務における融資審査で可決・否決の判断に使うことを明示的に考慮したモデルの構築を行うために、Heckmanの2段階法を参考に、2つのモデルを組み合わせた新たな手法を提案する。具体的には、可決・否決を評価するモデル（以降、否決評価モデル）で算出された信用スコア(以降、否決スコア)と非デフォルト・デフォルトを評価するモデル(以降、デフォルト評価モデル)で算出した信用スコア(以降、デフォルトスコア)を統合した評価スコア(以降、信用スコア)を算出するモデルを提案する。2011～2017年度の融資申込顧客の約77万件のデータ(インサンプル)を用いて、2つの評価モデルを構築し、2018～2021年度の融資申込顧客の約46万件のデータ(アウトオブサンプル)を用いて、評価を行った。

本研究の貢献は以下の通りである。

(1) 融資の否決先の情報を教育ローン向け信用スコアリングモデルの構築に利用した最初の論文である。
(2) 融資の申込顧客(否決先および可決先)の情報を用いて推計した否決評価モデル、可決先のみの情報を用いて推計したデフォルト評価モデルの2つのロジスティック回帰モデルを構築し、要因に違いがあることを明らかにした。
(3) 2つのモデルを統合して、2種類のタイプの信用スコアを提案する。
(4) 統合した信用スコアは、可決先のみの情報を用いて推計したデフォルトスコアを用いたときに比べて安定的にAUCが5ポイント上回った。可決先に加えて、否決先の情報をともに活用することによって、審査の効率化に貢献することを明らかにしたほか、時系列的にも安定的な結果が得られたことから、モデルの頑健性も確認した。

本稿の構成は以下の通りである。2節では、信用スコアリングモデルとして、ロジスティック回帰を用いた否決評価モデルとデフォルト評価モデルの2つのモデルを構築し、データを用いて要因の違いを確認する。また、否決割合とデフォルト率の関係も示す。3節では、それぞれのモデルから算出された否決スコアとデフォルトスコアを統合した信用スコアの算出方法を提案する。さらに「否決またはデフォルト」と「非デフォルト」を判別するために、その予測と結果の適合度を評価する方法も示す。具体的には、前者を陽性、後者を陰性と定義し、陽性的中率および陰性的中率を用いて計算したAUCによってモデルを評価する。4節では、アウトオブサンプルデータに対する信用スコアを算出し、AUCを用いて信用スコアの算出方法を比較する。また、審査の簡略化による陽性的中率および陰性的中率への影響について検討する。5節では、まとめと今後の課題を示す。

2　信用スコアリングモデル

本節では、融資の申込顧客(否決先および可決先)の情報を用いて「否決・可決」を被説明変数とする否決評価モデルと先行研究で提案されている可決先のみの情報を用いてデフォルトの有無を被説明変数とするデフォルト評価モデルの2つのモデルを構築し、要因に違いがあることを明らかにする。これらの2つのモデルは、ともに最も金融機関に普及しているロジスティック回帰を用いて構築する³⁾。説明変数には、借入申込書の記入事項およびクレジットヒストリーから作成した変数を設定する。

2.1 モデルの構築

2.1.1　否決評価モデル

融資の申込顧客$i$の融資の可否(0: 可決, 1: 否決)および顧客$i$に関する変数$x_{mi},\ (i=1,\ldots,I;\,m=1,\ldots,M)$ ($I$: 融資の申込顧客数, $M$: 説明変数の数)を用いて、ロジスティック回帰モデルを構築する。

$$p^{NA}_i=\frac{1}{1+\exp(z^{NA}_i)},\quad z^{NA}_i=\alpha_0 + \sum_{m=1}^{M} \alpha_m x_{mi},\ (i=1,\ldots,I)$$

(1)

最尤法によって推定されたパラメータを$\alpha_0^*$, $\alpha_m^*\,(m=1,\ldots,M)$とすると、融資申込顧客$i$の否決スコア（$Score^{NA}_i$) および否決確率($Prob^{NA}_i$)を、それぞれ(2), (3)式で表す。$Score^{NA}_i$が高い顧客iほど、$Prob^{NA}_i$は低くなる。

$$Score^{NA}_i=\alpha_0^* + \sum_{m=1}^{M} \alpha_m^* x_{mi},\ (i=1,\ldots,I)$$

(2)

$$Prob^{NA}_i=\frac{1}{1+\exp\left(Score^{NA}_i\right)},\ (i=1,\ldots,I)$$

(3)

2.1.2　デフォルト評価モデル

融資の申込顧客$i$のデフォルトの有無(0: 非デフォルト, 1: デフォルト) および顧客$i$に関する変数$y_{mi},\ (i=1,\ldots,I_A;\,m=1,\ldots,L)$ ($I_A$: 可決先の顧客数, $L$: 説明変数の数) を用いて、ロジスティック回帰モデルを構築する。

$$\begin{aligned}Score^{DF}_i&=\beta_0^* + \sum_{m=1}^{L} \beta_m^* y_{mi},\ (i=1,\ldots,I_A) \label{eqn:DF_Score}\\ Prob^{DF}_i&=\frac{1}{1+\exp\left(Score^{DF}_i\right)},\ (i=1,\ldots,I_A)\end{aligned}$$

(4)

最尤法によって推定されたパラメータを$\beta_0^*$, $\beta_m^*\,(m=1,\ldots,L)$とすると、融資申込顧客$i$のデフォルトスコア（$Score^{DF}_i$)およびデフォルト確率($Prob^{DF}_i$)を、それぞれ(5), (6)式で表す。$Score^{DF}_i$が高い顧客$i$ほど、$Prob^{DF}_i$は低くなる。

$$Score^{DF}_i=\beta_0^* + \sum_{m=1}^{L} \beta_m^* y_{mi},\ (i=1,\ldots,I_A)$$

(5)

$$Prob^{DF}_i=\frac{1}{1+\exp\left(Score^{DF}_i\right)},\ (i=1,\ldots,I_A)$$

(6)

2.2　モデルの推定と評価

公庫が取り扱う「国の教育ローン」の2011年度から2017年度の融資の申込顧客(否決先および可決先)77万先を用いて、2つの評価モデルを構築する。表3に示す借入申込書の記入事項およびクレジットヒストリーから作成した129個の変数を説明変数の候補として、カイ二乗検定の有意水準5%未満を基準にステップワイズにより選択を行った。なお、デフォルト評価モデルの被説明変数であるデフォルトの定義は、融資後2年以内で3カ月以上の延滞発生である。

表3: 借入申込書の主な記入事項

融資申込人の家族状況	融資申込人と学生の続柄，扶養している子供の人数
収入	融資申込人の収入，同居家族の収入
職業	勤務先，雇用形態，勤続（営業）年数
住まい	居住年数，居住形態（持ち家，賃貸，社宅等）
借入	借入先，使いみち，残高，年間返済額

表4に候補として用いた変数のカテゴリーとその項目および数、表5に各モデルで選択された変数のカテゴリーとその数を示す⁴⁾。2つのモデルで選択された変数は合計で42変数である。ただし、両モデルの変数として選択されたのは5変数で、全体の11.9%($=5変数/42変数$)にとどまっている。この結果は、否決先とデフォルト先では、審査時点での判別要因が異なることを示している。

表4: 候補として用いた変数のカテゴリーとその内容および数

カテゴリー		項目
借入申込書	申込人に関する情報	職業(会社員、会社経営者、個人経営者など)	7変数
		収入の状況(年間収入や勤務・営業年数など)	3変数
		居住形態(自己所有、家族所有、賃貸など)	5変数
		家族の状況(家族の年間収入や扶養している子どもの人数など)	9変数
		学生との続柄(父母、本人など)	2変数
		在学先・進学予定先の学校の種別(高校、大学、専門学校など)	2変数
	借入条件に関する情報	資金の使いみち(入学資金、在学資金など)	2変数
		借入条件(借入申込金額、申込日から借入希望日までの日数など)	3変数
		返済条件(返済期間、ボーナス時増額の有無など)	12変数
クレジットヒストリー		契約の状況(否決件数や借入件数、借入額や極度額など)	29変数
		残債額の状況(返済額、残高など)	27変数
		返済状況(事故情報の有無、返済遅延回数など)	28変数
合計			129変数

表5: 各モデルで選択された説明変数のカテゴリーとその数

説明変数のカテゴリー	否決評価モデル	デフォルト評価モデル	共通(内数)
借入申込書の記入事項	3変数	11変数	1変数
クレジットヒストリー	15変数	18変数	4変数
合計	18変数	29変数	5変数

否決スコアとデフォルトスコアの序列性を評価するために、インサンプルデータ(2011年～2017年: 77万件)と2018年度、2019年度およびコロナ禍の2020年度、2021年度の融資申込顧客46万先をアウトオブサンプルデータとして用いて求めたAR値を表6に示す。

表6: AR値: 各モデルの精度評価

モデル		否決評価モデル		デフォルト評価モデル
対象		否決	デフォルト	否決	デフォルト
インサンプルデータ		83.67%	—	—	61.73%
アウトオブ	2018年	88.50%	37.58%	71.74%	65.11%
サンプル	2019年	86.51%	37.04%	73.68%	64.60%
データ	2020年	86.51%	41.92%	74.79%	65.73%
	2021年	87.33%	33.66%	70.88%	67.22%

否決評価モデルのAR値はインサンプルで83.67%、アウトオブサンプルで86～89%と高く、安定的に精度の高いモデルを構築できている。デフォルト評価モデルもインサンプルで61.73%、アウトサンプルで64～68%とある程度精度よく、安定的なモデルが構築できている⁵⁾。デフォルト評価モデルを使って、「否決・可決」を評価したとしても、AR値は70%～75%と高く、ある程度は審査に使えることが分かる。ただし、否決評価モデルの方がAR値は11%ポイント～17%ポイント高く、否決・可決の特徴を捉えていることがわかる。

2.3　可決割合とデフォルト率の関係

融資を否決された顧客のデフォルトの有無のデータは存在しないので、評価することはできない。そこで、2011～2019年度における融資申込で、信用スコアが判別点未満と評価された顧客のうち、その後の人的審査により融資が可決された顧客の割合とデフォルト率の関係を見てみよう⁶⁾。判別点を$X$として、信用スコアが$0$以上$X/2$未満の融資先群を融資先群A、信用スコアが$X/2$以上$X$未満の融資先群を融資先群Bと呼ぶことにし、年度ごと(9個)の可決割合とデフォルト率をプロットすると図2のようになる⁷⁾。

可決割合とデフォルト率の間には強い相関があることが分かる。また、融資先群Aの方が融資先群Bよりも相関は高く、デフォルトスコアの悪い方が可決割合とデフォルト率の関係は強くなる。人的審査で可決割合を下げると、デフォルト率は低くなることを示しており、人的審査による融資の可否の有用性が確認できる。このことから、実際に融資した場合にデフォルトしたかどうかはわからないが、人的審査で否決のまま融資していない先はデフォルトした可能性が高いと予想される⁸⁾。

図2: 可決割合とデフォルト率の関係

3　信用スコアリングモデルの評価

3.1　信用スコアの算出

融資申込顧客を判別するために、否決スコアとデフォルトスコアを統合することを考える。信用スコアを統合する方法にはさまざまな方法が考えられるが、本研究では以下で2つの方法を提案する。

3.1.1　可決確率($1-Prob^{NA}_i$)と非デフォルト確率($1-Prob^{DF}_i$)の積から算出する方法

融資の申込顧客のうち、借りたあとで正常に返済を続けている(デフォルトしない)人が多い方が望ましい。そこで、審査プロセス(図1)における2つの分岐(可決・否決、非デフォルト・デフォルト)の生起確率を掛け合わせることで申込顧客のリスクを一つの信用スコアとして評価する方法を提案する⁹⁾。具体的には、可決確率$1-Prob^{NA}_i$と非デフォルト確率$1-Prob^{DF}_i$の積が高いほど、信用スコア$1-Prob^{DF}_i$が高くなるように、

$$\left(1-Prob^{NA}_i\right)\left(1-Prob^{DF}_i\right)=\frac{1}{1+\exp\left(-Credit\_Score_i\right)}$$

(7)

と定式化すると、(3), (6)式を用いて、以下のように求めることができる。

$$Credit\_Score_i=Score^{NA}_i+Score^{DF}_i-\ln\left\{1+\exp\left(Score^{NA}_i\right)+\exp\left(Score^{DF}_i\right)\right\}$$

(8)

これは、否決評価モデルとデフォルト評価モデルから得られたスコアを同じ重みで評価する方法である。

3.1.2　否決スコア$Score^{NA}_i$とデフォルトスコア$Score^{DF}_i$の重みを可変にする方法

否決スコア$Score^{NA}_i$とデフォルトスコア$Score^{DF}_i$は異なるモデルから算出されたスコアであり、どちらをどのように重視するかによって、評価値は異なる。そこで、本研究では、多目標計画法で用いられる評価関数(伏見ほか, 1987）によって信用スコアを算出する方法を提案する。具体的に、以下に3つの評価関数を示す。

(1) 評価関数1: 否決スコアとデフォルトスコアの加重和

$$Credit\_Score_i＝w^{NA} \cdot Score^{NA}_i + w^{DF} \cdot Score^{DF}_i$$

(9)

ここで、$w^{NA}$は否決スコアの重み、$w^{DF}$はデフォルトスコアの重みを表すことにする。両スコアがこの重みで代替性を許す評価方法である¹⁰⁾。評価関数1の無差別曲線(等高線)を図3に示す。

図3: 評価関数1の無差別曲線

(2)　評価関数2: 低い方のスコアと平均スコアの加重和

$$Credit\_Score_i＝\ln \left\{\left(\frac{1-Prob^{NA}_i}{Prob^{NA}_i}\right)^{w^{NA}}\left(\frac{1-Prob^{DF}_i}{Prob^{DF}_i}\right)^{w^{DF}}\right\}$$

(10)

ここで、$w^{min}$は低いスコアの重み、$w^{ave}$は両スコアの平均の重みを表す。可決スコアとデフォルトスコアのバランスが悪い場合、低い方のスコアの重みをより重視することによって、より安全にスコアを評価する方法である。(10)式は、$Score^{NA}_i$と$Score^{DF}_i$の大きさによって、以下のように書き換えられる。

$$Credit\_Score_i＝\left\{ \begin{array}{lcl} \left(\frac{w^{min}+w^{ave}}{2}\right) Score^{NA}_i+\frac{w^{ave}}{2}\cdot Score^{DF}_i&\mbox{for}&Score^{NA}_i\leq Score^{DF}_i\\ \frac{w^{ave}}{2} \cdot Score^{NA}_i+\left(w^{min}+\frac{w^{ave}}{2}\right) Score^{DF}_i&\mbox{for}&Score^{NA}_i>Score^{DF}_i\\ \end{array} \right. \label{eqn:min_score_2}$$

(11)

評価関数1では、どちらのスコアを重視するかによって、それぞれの重みを固定する必要があるが、評価関数2では、スコアに応じて、どちらのスコアを重視するかが変わることになる。評価関数2の無差別曲線(等高線)を図4に示す。

図4: 評価関数2の無差別曲線

(3)　評価関数3: 高い方のスコアと平均スコアの加重和

$$Credit\_Score_i＝w^{max} \cdot \max\left(Score^{NA}_i,Score^{DF}_i\right)+w^{ave} \left(\frac{Score^{NA}_i+Score^{DF}_i}{2}\right)$$

(12)

ここで、$w^{max}$は高いスコアの重み、$w^{ave}$は両スコアの平均の重みを表す。評価関数3も、評価関数2と同様に、スコアに応じて、どちらのスコアを重視するかが変わるが、高いスコアを重視して評価する方法である¹¹⁾。

3.2　評価指標

融資審査において、信用スコアリングモデルを活用する場合、図1に示したように、算出された信用スコアが判別点以上であれば可決、判別点未満であれば人的審査を行い、可否を決定する。

一方で、スコアリングモデルの精度は判別点に影響を与える。精度が低ければ、保守的に設定するために判別点を高くせざるを得なくなり、その結果、人的審査に判別される申込顧客が多くなる。したがって、スコアリングモデルの精度向上は人的審査によるコストと貸倒損失の低減に貢献する。

そこで、本研究では信用スコアリングモデル全体の予測とその結果の適合度を評価する指標として、山下ら(2003)が示しているAUC(Area Under the Curve)¹²⁾を評価指標として用いる。山下らでは、可決先のみの情報に対して、デフォルトと非デフォルトの予測とその結果の適合度を評価している。本研究では、可決先だけでなく否決先も含めた情報に対して、予測とその結果の適合度を評価する。

否決された顧客が、可決されていた場合に結果としてデフォルトしたかどうかを確認することはできない。ただし、2.3節で示したように、人的審査による可決割合とデフォルト率には高い相関があることから、評価においては「否決、またはデフォルト」をまとめて陽性、非デフォルトを陰性と定義して、予測とその結果の適合度を評価する。予測とその結果は、表7のとおり、4つの場合が考えられる。

図5: 人的審査の対象

表7: 配置表

		結果
		否決、またはデフォルト（陽性）	非デフォルト (陰性)
予測	信用スコア<判別点(陽性)	真陽性(N_{pp})	偽陽性(N_{pn})
予測	信用スコア≥判別点(陰性)	偽陰性(N_{np})	真陰性(N_{nn})

ここで、陽性的中率および陰性的中率は、それぞれ(13)式、(14)式で定義される。

$$陽性的中率=\frac{真陽性の融資申込顧客数\,(N_{pp})}{結果が陽性の融資申込顧客数\,(N_{pp}+N_{np})}$$

(13)

$$陰性的中率=\frac{真陰性の融資申込顧客数\,(N_{nn})}{結果が陰性の融資申込顧客数\,(N_{pn}+N_{nn})}$$

(14)

陽性的中率は、否決先またはデフォルト先のうち、信用スコアが判別点を下回る融資申込顧客の割合であり、高い方が望ましい。陰性的中率は、非デフォルト先のうち、信用スコアが判別点を上回る顧客の割合であり、高い方が望ましい。陽性的中率および陰性的中率は、判別点を任意に上下させることによって変動する。判別点を高くすると、陽性的中率が上昇し陰性的中率が低下する。一方、判別点を低くすると、逆に陽性的中率が低下し陰性的中率が上昇する。判別点を$-\infty$から$\infty$で動かしたときの陽性的中率と$1-$陰性的中率をプロットした曲線がROC曲線（Receiver Operating Characteristic curve）であり、図6に示すように、ROC曲線、縦軸=$0$および横軸=$1$で囲まれる面積がAUC(Area Under the Curve)である。陽性的中率や陰性的中率が高いほど、ROC曲線が左上に凸の形状となり、AUCは大きくなる。

図6: ROC曲線とAUC

4　モデルの評価

4.1　結果および考察

2.2節で示したように、2011年度から2017年度の融資申込顧客(77万先)をインサンプルとして否決評価モデルおよびデフォルト評価モデルを構築し、アウトオブサンプルデータである2018年度、2019年度およびコロナ禍の2020年度、2021年度の融資申込顧客46万先を用いて評価を行う。比較対象には、先行研究で提案されている可決先のみの情報を用いて被説明変数をデフォルトの有無としたデフォルト評価モデルから算出されるデフォルトスコアとする。

4.1.1　結果1: 可決確率と非デフォルト確率の積から算出する方法

(8)式で求めた信用スコアのAUCを表8に示す。

表8: 可決確率と非デフォルト確率の積から算出される信用スコアのAUC

	2018年度 (12.6万先)	2019年度 (12.6万先)	2020年度 (10.3万先)	2021年度 (10.5万先)
信用スコア((8)式)	90.8%	91.8%	92.8%	91.4%
デフォルトスコア((5)式: 比較対象)	85.5%	86.5%	87.2%	85.6%

2018年度申込顧客では90.8%、2019年度申込顧客では91.8%、コロナ禍の2020年度申込顧客では92.8%、2021年度申込顧客では91.4%と、デフォルトスコアと比較すると各年度5.3ポイント、5.3ポイント、5.6ポイント、5.8ポイントと5ポイントを上回る上昇を示す結果となった。異なる申込年度のアウトオブサンプルデータにおいてもAUCの大幅な上昇が確認できた。

4.1.2　結果2: 否決スコアとデフォルトスコアの重みを可変にする方法

否決スコアとデフォルトスコアを用いた3つの評価関数に対して算出した信用スコアのAUCの結果を示す。評価関数1(両スコアの加重和)の場合のAUCと比較対象であるデフォルトスコアを用いた場合のAUCを図7に示す。

2018年度から2021年度の融資申込年度において、否決スコアの重み($w^{NA}$)とデフォルトスコアの重み($w^{DF}$)が2:1と1:1の場合はほぼ同じAUCとなり、他の重みに比べて大きくなるとともに、比較対象のデフォルトスコアに比べて5.1～5.7ポイントと、5ポイントを上回る大幅な上昇が確認できた。否決スコアがデフォルトスコアよりも重みが大きい場合には、その重みが変わってもAUCにはそれほど影響はないが、デフォルトスコアの重みが大きくなる場合には、徐々にAUCは悪化していくことがわかる。比較対象となるデフォルト評価モデルはその重みを無限大にしたものなので、この結果とは整合的であることがわかる。

評価関数2と評価関数3を用いた場合の結果をそれぞれ、図8に示す。評価関数2、評価関数3ともに、平均の重み$w^{ave}$を大きくした方が高くなるため、この2つの評価関数ではなく、評価関数1を用いた方が効果的に評価できることがわかる。

図7: 評価関数1(両スコアの加重和)の場合のAUC

図8: 評価関数2と評価関数3の場合のAUC

4.2　人的審査の割合による陽性的中率および陰性的中率への影響

信用スコアリングモデルを用いて融資審査を行う場合、図5に示したように、信用スコアに応じて可決するか、人的審査をするかの閾値(判別点)を決めることになる。ただし、実務的には貸し倒れにより生じる費用の抑制や審査時間の短縮に関連する審査コストを考慮して、融資申込顧客のうち人的審査する顧客の割合を決め、閾値を設定することが想定される。ここでは、人的審査する顧客の割合を4通り(3/4, 1/2, 1/4, 1/10)設定し、その割合に対応する閾値を設定した場合の陽性的中率および陰性的中率を表9に示す。斜字体の数値が最大値である。前節の結果から、両確率の積を用いる方法(信用スコア(確率))、評価関数1(信用スコア(加重和))、比較対象であるデフォルトスコアに対する結果を示す。

融資申込年度が2018年度の場合を見てみよう。図7にも示したように、AUCは2:1の重みで否決スコアとデフォルトスコアを評価した方法で最大となったが、陽性的中率および陰性的中率が最大となる評価方法は、人的審査をする割合によって異なる結果となった。人的審査の割合が3/4の場合99.36%(重みは1:1)、1/2の場合96.45%(1:1)、1/4の場合84.13%(2:1)、1/10の場合59.94%(4:1)となった。比較対象のデフォルトスコアの陽性的中率と比べると、それぞれ、0.61%ポイント、3.07%ポイント、9.72%ポイント、14.12%ポイント上昇した。閾値を低くして人的審査をする顧客の割合を低くするほど、比較対象のデフォルトスコアとの差が拡大する結果となった。否決先が必ずしもデフォルトするとは限らないが、デフォルトすると仮定すると、陽性的中率が14.12%ポイント上昇するということは、それに伴う費用が14.12%ポイント低下することが期待できることを意味する。同様に、陰性的中率をみると、人的審査の割合が3/4の場合27.29%(1:1)、1/2の場合54.38%(1:1)、1/4の場合80.57%(2:1)、1/10の場合94.70%(4:1)となっている. 陽性的中率と同様に、閾値を低くして人的審査の割合を低くするほど、比較対象のデフォルトスコアとの差が拡大する結果となった。融資申込年度が2019～2021年度の場合も同様の結果が得られた。

表9: 陽性的中率および陰性的中率

融資申込年度	信用スコア		AUC	陽性的中率				陰性的中率
				人的審査の割合				人的審査の割合
				1/4	1/2	3/4	9/10	1/4	1/2	3/4	9/10
2018	信用スコア(確率)		90.81	99.32	96.54	84.89	59.71	27.29	54.38	80.64	94.68
	信用スコア(加重和))	4:1	89.96	98.76	95.01	83.75	59.94	27.24	54.24	80.53	94.70
		2:1	90.56	99.23	96.07	84.13	59.66	27.28	54.34	80.57	94.68
		1:1	90.55	99.36	96.45	84.00	58.73	27.29	54.38	80.56	94.59
		1:2	89.70	99.28	96.01	82.36	56.20	27.29	54.33	80.40	94.35
	デフォルトスコア		85.53	98.76	93.38	74.41	45.82	27.24	54.09	79.65	93.37
2019	信用スコア(確率)		91.82	99.50	97.10	86.66	60.59	27.49	54.79	81.27	95.15
	信用スコア(加重和))	4:1	91.32	99.17	96.11	85.89	61.35	27.46	54.69	81.19	95.22
		2:1	91.80	99.44	96.92	86.41	61.64	27.49	54.77	81.25	95.25
		1:1	91.67	99.50	96.96	85.88	60.45	27.49	54.78	81.19	95.13
		1:2	90.75	99.46	96.50	84.23	57.29	27.490	54.73	81.02	94.81
	デフォルトスコア		86.50	98.86	93.55	76.61	47.06	27.43	54.43	80.25	93.77
2020	信用スコア(確率)		92.78	99.71	97.63	87.26	61.23	27.85	55.50	82.19	95.92
	信用スコア(加重和))	4:1	92.55	99.47	97.13	87.03	61.77	27.83	55.44	82.17	95.98
		2:1	92.88	99.71	97.55	87.58	61.82	27.85	55.490	82.23	95.99
		1:1	92.66	99.75	97.54	87.32	60.68	27.86	55.49	82.20	95.85
		1:2	91.67	99.64	97.05	85.26	57.87	27.85	55.43	81.96	95.53
	デフォルトスコア		87.22	99.25	94.18	76.58	47.18	27.80	55.10	80.96	94.29
2021	信用スコア(確率)		91.42	99.50	96.44	84.67	58.61	27.83	55.37	81.90	95.62
	信用スコア(加重和))	4:1	90.46	98.90	94.74	83.21	59.06	27.76	55.17	81.73	95.67
		2:1	91.22	99.49	96.22	84.01	58.65	27.83	55.34	81.82	95.63
		1:1	91.27	99.56	96.61	84.08	57.68	27.84	55.39	81.83	95.51
		1:2	90.33	99.48	96.27	82.10	54.98	27.83	55.35	81.60	95.20
	デフォルトスコア		85.60	98.80	92.60	73.43	44.62	27.75	54.93	80.60	94.00

表8で示した両確率の積を用いる方法(信用スコア(確率))、図7でAUCが最大となった両スコアの2:1の加重和による評価関数1(信用スコア(加重和))、比較対象であるデフォルトスコア(DFスコア)によって求められた陽性的中率と陰性的中率を用いて描いたROC曲線を図9に示す。

いずれの方法で求めた信用スコアのROC曲線もほぼ同じであり(重なっており)、デフォルトスコアよりも左上に位置していることが確認できる。

図9: ROC 曲線の比較

5　おわりに

本研究では、公庫が取り扱う「国の教育ローン」の2011年度から2017年度の融資申込顧客（否決先および可決先）77万先のデータを用いて、否決先の情報も活用した信用スコアリングモデルを構築し、2018年度、2019年度およびコロナ禍の2020年度、2021年度の融資申込顧客46万先のデータを用いて、その有効性と頑健性を評価した。本研究で提案した信用スコアリングモデルは、否決先および可決先の情報から推計した否決評価モデル、および可決先の情報から推計したデフォルト評価モデルの2つのロジスティック回帰モデルを構築した。モデルを推計した結果、否決評価モデルで18変数、デフォルト評価モデルで29変数がステップワイズで選択された。しかし、両モデルで共通に選択された変数は5変数にとどまっており、否決先とデフォルト先では、審査時点での判別要因が異なることが分かった。否決評価モデルとデフォルト評価モデルを統合して信用スコアを算出する方法として、可決確率と非デフォルト確率の積からスコアを算出する方法と否決スコア

とデフォルトスコアの重みを可変にする方法を提案した。

前者の方法を用いた場合、モデルの予測とその結果の適合度を示すAUCを評価指標に用いた結果、デフォルト評価モデルのみを用いて算出したデフォルトスコアを利用する方法と比較して、2018年度から2020年度のすべての融資申込年度において5ポイントを上回るAUCの大幅な上昇を確認することができた。後者の方法として、3種類の評価関数を試した結果、両スコアの加重和を信用スコアとする評価関数の適合度が高く、デフォルト評価モデルと比較して、前者の方法と同様に、5ポイントを上回るAUCの大幅な上昇を確認することができた。いずれの方法も、アウトオブサンプルテストにおいて、頑健性が高い結果を示すことができた。

これらの結果から、両モデルを用いることによって、デフォルト評価モデルのみを用いる場合に比べて、評価指標を改善することができ、融資審査において申込顧客の判別に有効であり、審査の効率性を高めることができることが分かった。本研究では実務への適用を重視し、2つのモデルを組み合わせた手法を提案した。その一方で、否決先の情報を用いるリジェクト推論の手法としてHeckmanの2段階法や否決先をデフォルト先とみなして単にデフォルト・非デフォルトを判別するモデルとの比較をすることによって、さらに本手法の有用性を検証することも考えられるが、それは今後の課題としたい。

脚注

¹⁾ 「国の教育ローン」の詳細は、公庫のホームページ（https://www.jfc.go.jp/n/finance/search/ippan.html）、奨学金の詳細は、日本学生支援機構のホームページ（https://www.jasso.go.jp/）をそれぞれ参照されたい。

²⁾ 米国においては古くからさまざまな統計モデルを用いてデフォルト要因の分析が行われている(Wilms et al.(1987)(判別関数モデル)、Greene(1989)(トービットモデル)、Knapp and Seaks(1992)(プロビットモデル)、Dynarski(1994)(ロジットモデル)、Herr and Burt(2005)(ロジスティック回帰モデル))。また、Gross et al.(2009)はこれらの研究も含めて、教育ローンのデフォルト要因に関する先行研究のサーベイを行っている。

³⁾ 本研究における「デフォルト・非デフォルト」は、「3カ月以上延滞」をデフォルトと定義し、その判定基準の下で客観的に判別されている。一方で、「可決・否決」の判定は、最終的には審査員による評価結果(人的審査により判別された結果)であり、「可決・否決」のデータを用いて構築されたモデルは、審査員の定性的な評価も含めて定量化した(可決・否決を評価した)モデルである。モデルを精度よく構築できれば、その信用スコアは審査の効率化に役に立つと考えられる。

⁴⁾ 本モデルは実務で利用しており、具体的な説明変数を明示できないことをご理解いただきたい。

⁵⁾ 枇々木ら(2011)で構築したデフォルト評価モデルのAR値は50%程度であり、本研究の方が、より良い精度のモデルが得られた。

⁶⁾ コロナ禍の影響を除くため、2020年度以降を含めていない。

⁷⁾ 実務で用いているため、縦軸と横軸の数値を出すことはできないをご理解いただきたい。

⁸⁾ 人的審査においては融資スタンスによって可決に変更する割合は変動する。人的審査がランダムであれば、可決した割合に対して、デフォルト率は無関係(無相関)となると想定される。人的審査で可決に変更した割合が上昇(低下)すると、デフォルト率も上昇(低下)する傾向にある(正の相関である)ことから、人的審査はデフォルト判別においても有効であるといえる。

⁹⁾ 表5に示したように、否決評価モデルとデフォルト評価モデルは5つの変数が共通な変数として選択されており、相関がない(独立である)とは言えないが、否決スコアとデフォルトスコアを統合する簡便な一つの方法として、ここでは独立と仮定して、2つの確率の積を用いて信用スコアを算出する方法を提案している。

¹⁰⁾ (9)式は(3), (6)式より、

$$Credit\_Score_i＝\ln \left\{\left(\frac{1-Prob^{NA}_i}{Prob^{NA}_i}\right)^{w^{NA}}\left(\frac{1-Prob^{DF}_i}{Prob^{DF}_i}\right)^{w^{DF}}\right\}$$

となる。$w_{NA}=w_{DF}=1$ならば、

$$\left(1-Prob^{NA}_i\right)\left(1-Prob^{DF}_i\right)=Prob^{NA}_i Prob^{DF}_i\exp\left(Credit\_Score_i\right)$$

を満たす信用スコアを求めることと同等であり、(8)式と似た評価値となることが想定される。

¹¹⁾ 評価関数3の無差別曲線(等高線)は、図4と右上と左下が対称の形になる。紙面の都合上、省略する。

¹²⁾ AUCは、信用スコアリングモデル構築の先行研究で用いられている評価指標AR値(Accuracy Ratio)と線形の関係にある($\mbox{AUC}=0.5\times \mbox{AR値}+0.5$）。

〔参考文献〕

Altman, E.I. and Sabato, G. (2008), Modelling Credit Risk for SMEs:Evidence from the U.S. Market”, A Journal of Accounting Finance and Business Studies, 43(3), pp.332-357.
Bandyopadhyay, A.(2016), Studying borrower level risk characteristics of education loan in India, IIMB Management Review, 28, pp. 126-135.
Dynarski, M.(1994), “Who Defaults on Student Loans? Findings from the National Postsecondary Student Aid Study”, Economics of Education Review, 13(1), 55-68.
伏見多美雄, 福川忠昭, 山口俊和(1987),『経営の多目標計画』, 森北出版.
Greene, L.L. (1989), “An Economic Analysis of Student Loan Default”, Educational Evaluation and Policy Analysis, 11, 61-68.
Gross, J.P.K., Cekic. O., Hossler, D., and Hillman, N. (2009), “What Matters in Student Loan Default: A Review of the Research Literature”, Journal of Student Financial Aid, 39(1), 19-29.
Han, B.S., Kang, H.G., and Jun, S.G. (2015), Student loan and credit risk in Korea, Economics Letters, 135, pp.121-125.
Hand, D.J. (1998), Reject Inference in Credit Operations, In Mays, E. (eds.), Credit Risk Modeling: Design and Application (Amacom Books), pp.181-190.
Herr, E. and Burt, L.(2005), Predicting Student Loan Default for the University of Texas at Austin, NASFAA Journal of Student Financial Aid, 35(2), pp.27-49.
枇々木規雄, 尾木研三, 戸城正浩(2011)「教育ローンの信用スコアリングモデル」, 日本金融・証券計量・工学学会編『ジャフィー・ジャーナル－金融工学と市場計量分析　バリュエーション』,pp.136-165, 朝倉書店.
Jayadev, M., Shah, N., and Vadlamani, R. (2021), Predicting Educational Loan Defaults Application of Machine Learning and Deep Learning Models, IIMB-WP No.601, https://www.iimb.ac.in/sites/default/files/2021-12/WP%20No.%20601.pdf
Knapp, L.G. and Seaks, T.G. (1992), “An Analysis of the Probability of Default on Federally Guaranteed Student Loans”, Review of Economics and Statistics, 74(3), 404-411.
Mancisidor, R. A., Kampffmeyer, M., Aas, K. and Jenssen, R. (2020), Deep generative models for reject inference in credit scoring, Knowledge-Based Systems, Vol.196, 105758. https://doi.org/10.1016/j.knosys.2020.105758
Marshall, A., Tang, L., and Milne, A. (2010), Variable reduction, sample selection bias and bank retail credit scoring, Journal of Empirical Finance, Vol. 17, No. 3, pp.501-512.
三浦翔, 井實康幸, 竹川正浩(2020). 「入出金情報を用いた信用リスク評価—機械学習による実証分析—」, 日本統計学会誌, 49(2), 187–216.
Nguyen, H. (2016), Reject inference in application scorecards: evidence from France, EconomiX Working Papers 2016-10, University of Paris Nanterre, EconomiX, https://ideas.repec.org/p/drm/wpaper/2016-10.html.
日本学生支援機構ホームページ, https://www.jasso.go.jp/shogakukin/oyakudachi/shogakukin_data/__icsFiles/afieldfile/2024/11/26/datashu.pdf, (最終アクセス: 2024 年12 月2 日).
日本政策金融公庫（2021）『令和３年度教育費負担の実態調査結果』, https://www.jfc.go.jp/n/findings/kyoiku_kekka_m_index.html
尾木研三, 戸城正浩, 枇々木規雄(2016), 小企業のEL 推計における業歴の有効性, ジャフィー・ジャーナル, pp.156-178.
Ogundimu, E. O. (2024), On Lasso and adaptive Lasso for non-random sample in credit scoring, Statistical Modelling, 24(2), pp.115-138. https://journals.sagepub.com/doi/10.1177/1471082X221092181.
Toshiro, M,, Tasaki, M., Hikidera, Y., and Hibiki, N. (2019), Estimating the Recovery Rates for Unsecured Loans to Small Sized Firms, Asia-Pacific Journal of Risk and Insurance, 13(2).
Wang, Y., Zhang, Y., Liang, M., Yuan, R., Feng, J., and Wu, J. (2023), National student loans default risk prediction A heterogeneous ensemble learning approach and the SHAP method, Computers and Education: Artificial Intelligence, No.5, 100166.
Wilms, W.W., Moore, R.W., and Bolus, R.E. (1987), “Whose Fault Is Default?”, Educational Evaluation and Policy Analysis, 9, 41-54.
Wu, I. and Hand, D.J. (2007), Handling selection bias when choosing actions in retail credit applications, European Journal of Operational Research, Vol. 183, No.3, pp. 1560-1568.
山下智志, 川口昇, 敦賀智裕(2003）,「信用リスクモデルの評価方法に関する考察と比較」『金融庁金融研究センター・ディスカッションペーパー，2003』, https://www.fsa.go.jp/frtc/seika/discussion/2003/20031031.pdf
Yao, J., Chapira, M.L., and Margaryan, M. (2017). Checking account activity and credit default risk of enterprises: An application of statistical learning methods, arXiv:1707.00757v1.

Corresponding author

Correction information

Register with J-STAGE for free!