近年,雇用の採否や融資の可否などの重要な意思決定に二値分類器を用いることが増えている一方で,二値分類器の予測結果が不公平を生じうることが危惧されている.ここで不公平とは女性や少数民族など保護されるべき集団(保護クラス)に対して保護されるべき集団に属さない集団(非保護クラス)よりも悪い影響を与えることと定義されている.先行研究では,保護クラスと非保護クラスで予測精度がどれほど等しいかを評価することで公平性を評価する手法が開発されてきた.一方で本研究では予測精度ではなく,安定性(stability),つまり,異なるデータセットで学習したモデルの予測値の一致度に着目した.そして,保護クラスと非保護クラスで安定性がどれほど異なるかで不公平さを評価する指標DOSACAを提案した.また,提案した評価手法を用いて数値実験および実データ解析を行った結果,木構造のアルゴリズムに比べ,ロジスティック回帰とニューラルネットワークは,特にサンプルサイズが小さく保護クラスの割合が小さいときに,安定性が不公平になりやすいことなどがわかった.本研究の成果は,公平な二値分類器の開発に向けた新たな評価基準を提供するものであり,特に実社会における予測アルゴリズムの倫理的・法的側面において重要な示唆を与える.
In recent years, binary classifiers have been increasingly used in important decision-making contexts such as hiring and loan approval. At the same time, concerns have arisen that such models may produce unfair outcomes. Here, unfairness is defined as situations where a protected group—such as women or ethnic minorities—receives worse impacts compared to an unprotected group. Previous studies have proposed fairness metrics that evaluate how similarly prediction accuracy is achieved across protected and unprotected groups. In contrast, this study focuses not on prediction accuracy but on stability—that is, the consistency of predictions across models trained on different datasets. We propose a new metric, DOSACA, which evaluates fairness by quantifying the difference in stability between protected and unprotected groups. Using this metric, we conducted numerical experiments and real data analyses. The results revealed that, compared to tree-based algorithms, logistic regression and neural networks tend to yield less stable predictions for protected groups—particularly when the sample size is small and the proportion of protected group members is low. This study contributes a novel evaluation criterion for building fair binary classifiers and offers important insights into the ethical and legal implications of predictive algorithms in real-world applications.
機械学習の発展などにより,医療や交通,雇用,融資などさまざまな分野において予測モデルを用いることが急速に浸透しており,例えばある患者に特定の治療を施すか否かや,企業の人事における採否など,重要な意思決定の場面に対して二値分類器により算出された予測値を用いることも増えてきている(Jordan & Mitchell, 2015).しかしながら,予測モデルを用いた意思決定により不公平を生じうることがわかっており,倫理的・法的に重大な問題であると指摘されている(Corbett-Davies et al., 2023).ここで不公平とは,保護されるべき集団に属する者に対して,保護されるべき集団に属さない集団よりも悪い影響を直接的または間接的に与えることと定義されており(Barocas & Selbst, 2016),保護されるべき集団は保護クラス,保護クラスに属さない集団は非保護クラス,保護クラスか否かを判断できる変数はセンシティブ属性と呼ばれる.また,不公平が生じていない状態は公平性が担保された状態と呼ばれる.予測モデルを用いた意思決定においては,予測モデルの構築に用いるデータにセンシティブ属性が含まれる場合には直接的な差別が生じる可能性があり,センシティブ属性が含まれていないデータであっても,間接的な差別が生じる可能性がある(Kleinberg et al., 2016).予測モデルによる意思決定が不公平になる原因はいくつか指摘されており,主要なものとしてデータに起因する不公平とアルゴリズムに起因する不公平が挙げられる(Chouldechova & Roth, 2018).データに起因する不公平は,モデルの構築に用いるデータに社会的な偏見がもともと組み込まれているような場合に生じる.データに起因する不公平の例として,保釈や仮釈放の判断に用いられる再犯予測を行う予測モデルが差別を受けやすい人種に対し将来の犯罪率を高く予測することなどが挙げられる(Chiao, 2019).一方で,アルゴリズムに起因する不公平は,多くの予測アルゴリズムが予測誤差の合計を最小化することでモデルを構築するため,少数グループに対しモデルの適合が悪くなるという性質によって生じる.実社会から収集されたデータを用いて予測モデルを構築する場合には,女性や少数民族など保護クラスのデータが少数となる傾向があるため,アルゴリズムによる不公平が生じやすい(Chen et al., 2018).実際にAmazonの機械学習アルゴリズムを用いた採用システムが技術職の採用に際し女性候補者を差別していた例では,用いたデータのほとんどが男性のものであったことから,アルゴリズムに起因する不公平が生じていた可能性が指摘されている(Albaroudi et al., 2024).アルゴリズムに起因する不公平は,保護クラスと非保護クラスを公平に扱うことのできるアルゴリズムを用いることで解消できるため,公平なアルゴリズムを調査すること,または,開発することが望まれる.実際に世界各国のAIに関する倫理原則やガイドラインにおいて,公平な予測モデル開発の重要性が強調されるようになり,日本でも「人間中心のAI社会原則」にAIを支える機械学習などのアルゴリズムが公平性を担保できるような仕組みが構築されねばならない旨が記載された(内閣府, 2019).
こうした背景を踏まえ,これまで保護クラスと非保護クラスで予測精度がどれほど等しいかを評価する公平性の評価手法が開発されてきた(Pessach & Shmueli, 2022).一方で,予測精度だけでなく,保護クラスと非保護クラスで安定性(stability)がどれほど等しいかを評価する公平性の評価手法も必要である.ここで安定性とは,モデルやアルゴリズムがどれほど信頼できるかを表す概念であり,同じデータ生成プロセスで抽出された異なるデータから生じた結果が非常に似ているとき安定であると考える.安定ではないアルゴリズムを用いると学習用のデータを変えただけで,同一個体に対する予測値が異なるモデルが構築されるという問題が生じる(Philipp et al., 2018).よって,安定性の観点で不公平なアルゴリズム,つまり,保護クラスが非保護クラスに対して安定ではないアルゴリズムを用いると保護クラスの予測値が非保護クラスの予測値よりもばらつくことになり,社会における不公平を拡大するリスクとなる.
ここで,予測アルゴリズムの安定性を評価するためには,2つの異なるデータセットで開発したモデル同士がどれほど似ているかを示す指標である類似度(similarity)を評価する必要がある(Philipp et al., 2018).そこで本研究では,類似度を用いて,予測アルゴリズムの安定性が保護クラスと非保護クラスでどれほど異なるかを評価する手法の開発を検討した.二値分類器に焦点をあて,保護クラスにおける予測値の類似度が非保護クラスにおけるそれに対してどれほど小さいかで不公平さを評価する指標 Disparity of similarity for average class agreement(DOSACA)を新たに開発した.さらに,開発した指標を用いて複数の代表的な予測アルゴリズムの安定性に対する公平性を比較する数値実験と実データ解析を実施した.
本稿では目的変数を二値変数とする分類問題を扱う.説明変数
と二値の目的変数
について,独立で同一な分布をもつサンプル
が与えられており,その実現値を
とする.また,説明変数
を与えたときにあるモデルが算出する予測値を
とし,その実現値を
とする.
二値分類問題における公平性の定義は様々に提唱されており,集団公平性と個人公平性に大別される.集団公平性では保護クラスの集団と非保護クラスの集団が平等に扱われるときを公平な状態と考え,個人公平性ではセンシティブ属性は異なるが,非センシティブ属性は全く同じ一対の個人がいたとしたとき,その個人が同様の扱いを受けるときを公平な状態と考える(Dwork et al., 2012).本稿では集団公平性について扱う.ここで,センシティブ属性とは,性別・人種など差別に関する配慮が必要な属性のことであり,法や規制など倫理的・社会的影響を考慮して,予測モデルを構築するタスクに応じ与えられるものとする(神嶌, 2023).本稿では,説明変数
のうち一次元のセンシティブ属性を
とし,その他の全ての説明変数を非センシティブ属性と呼び
とする.また,センシティブ属性に関して,差別から守るべき集団を保護クラスと呼び,それ以外の集団を非保護クラスと呼ぶ.本稿では,センシティブ属性
が 1 のとき保護クラスを,0 のとき非保護クラスを表すこととする.
二値分類問題における予測精度に対する公平性の基準として,Hardt et al.(2016)によって開発された equalized odds を紹介する.目的変数
で条件づけた下で予測値
とセンシティブ属性
が独立であるとき,予測値
は目的変数
とセンシティブ属性
に関して equalized odds を満たすと定義される.よって,予測値
が equalized odds であるとは以下の通り表現できる.

つまり,
のとき真陽性率が
と
で一致しており,かつ,
のとき偽陽性率が
と
で一致するならば,予測値
は equalized odds を満たすと考えることができる.
二値分類問題の予測精度に対する公平性の基準や評価指標はこのほかにも様々に存在し,混同行列ベースの評価指標や共変量条件付の予測精度に対する評価指標(Caton & Haas, 2024),Area Under Curve(AUC)に基づく評価指標(Fong et al., 2021)などが存在している.しかしながら,二値分類問題における安定性に対する公平性を評価できる指標は存在しない.
安定性は,予測結果がどれほど信頼できるかを表す重要な指標である(Turney, 1995).同じデータ生成プロセス(Data Generation Process; DGP)で抽出された異なるデータセットによって生じた結果が同一または非常に類似しているとき,安定であると考える(Philipp et al., 2018).モデルの構築に用いるロジスティック回帰や決定木など統計的予測アルゴリズムを
とし,ある DGP によって生成された学習サンプルを
とする.また,同じ DGP によって生成された
とは異なる学習サンプルを
とする.記号の煩雑さを避けるため,学習サンプル
と
については,確率変数と実現値を同一の記号で表記する.そして,アルゴリズム
と学習サンプル
に対して,
を予測モデルとする.モデルの構築においては,学習サンプルの変化の大きさやアルゴリズムの設計原理によって予測モデル
と
は一般に異なるが,この2つのモデル同士が似ているならばこのアルゴリズムは安定性が高いと考えることができる(Philipp et al., 2018).
安定性を評価するためには,2つの異なるモデルを構築し両者の類似度を評価する必要がある.類似度にはモデルのパラメータなどモデルの構造自体がどれほど似ているかを評価する構造的類似度(structural similarity)と,モデルが算出する予測値同士がどれほど似ているかを評価する意味的類似度(semantic similarity)があるが,異なるアルゴリズム間の安定性を比較するためには意味的類似度で安定性を評価する必要がある.本稿では意味的類似度を扱い,以下の説明では意味的類似度を単に類似度と記載する.
二値分類の類似度指標として,Turney(1995)は Average Class Agreement(sACA)を提案している.sACA は,異なるサンプルを用いて構築した2つのモデルの予測値の一致率と定義され,以下のように表現できる.

sACA は 0 から 1 の値をとり,1 に近いほどそのアルゴリズムの安定性が高いことを表す.
類似度指標 sACA の推定値を算出するためには,評価サンプル
を与えて算出された予測値同士の一致度合いを測る.モデル
と
を用いて算出した評価サンプル
に対する予測値は
ならびに
と表現できる.
個の学習サンプルの組
に対する sACA の推定値
は以下のように算出される.

ここで
は条件
を満たすとき 1 を返す指示関数である.
本研究ではアルゴリズムの公平性を,予測精度の観点からではなく,安定性の観点から評価する新たな指標を開発する.前章で述べた通り,安定性を評価するためには類似度を算出する必要がある.そこで本研究では,二値分類器において,保護クラスにおける予測値の類似度が非保護クラスにおけるそれに対してどれほど小さいかで不公平さを評価する指標 Disparity of similarity for average class agreement(DOSACA)を新たに開発した.これは,異なる 2 つの学習サンプル
,
で構築した異なる 2 つのモデル
の,予測値の一致度合いを,非保護クラス
と保護クラス
それぞれで算出し,その差をとった指標であり,以下のように表現できる.

非保護クラスと保護クラスの類似度を比較することで公平性を安定性の観点から評価することが可能になる.DOSACA は保護クラスに対する不公平の大きさを表す指標であり,−1 から 1 の値をとる.その値が正ならば保護クラスよりも非保護クラスにおいて安定性が良好であり,保護クラスに対して不公平が生じていることを表す.また,絶対値が小さいほどそのアルゴリズムが安定性の観点で公平であることを表す.
推定値を算出するためには評価サンプル
を与える.推定値は評価サンプル
に対する予測値
,
の一致度合いを,非保護クラス
と保護クラス
それぞれで算出しその差をとった値となる.
個の学習サンプルの組
に対する DOSACA の推定値
は以下のように計算される.

ここで,
は評価サンプル
においてセンシティブ属性が 1 である対象の集合を,
はセンシティブ属性が 1 である集合の大きさを,
はセンシティブ属性が 0 である集合の大きさを表す.
この推定値は,評価サンプル
を分布
から復元抽出した後,以下の手順を
に対して繰り返すことで算出される.ここで,
について,数値実験ならば
実データ解析ならば
である.ただし,
は
の経験分布を表す.
を
から復元抽出によりサンプリングする.
でモデル
を構築する.
を用いて,評価サンプル
に対する予測値 
を算出し,センシティブ属性ごとに予測値の一致率を算出してその差を計算する.
現在よく用いられている機械学習アルゴリズムについて,安定性の観点から公平性を評価することを目的とし,ロジスティック回帰(Logistic Regression; LR),ニューラルネットワーク(Neural Network; NN),決定木(Decision Tree; DT),ランダムフォレスト(Random Forest; RF),勾配ブースティング決定木(Gradient Boosted Decision Tree; GBDT)の 5 つのアルゴリズムの DOSACA を比較した.
5.1. 方法データ
として,非センシティブ属性には 2 変量標準正規分布
に従う
を生成した.また,センシティブ属性にはベルヌーイ分布
に従う
を,
とは独立に生成した.また,説明変数に対してアウトカム生起確率
をシグモイド関数(Case1)・ツリー関数(Case2)・条件分岐を含むシグモイド関数(Case3)の 3 種の関数で割り当て,ベルヌーイ分布
に従ってアウトカム
を生成した(付録 A 参照).また,DOSACA に対するサンプルサイズと保護クラス割合の影響を確認するために,学習サンプルのサンプルサイズ
を 100~100,000 で,保護クラス割合
を 0.05, 0.1, 0.25 で変更し実験を行った.
次に,データ
から,サンプルサイズ
の学習サンプル
を抽出し,ロジスティック回帰,ニューラルネットワーク,決定木,ランダムフォレスト,勾配ブースティング決定木のそれぞれでモデルを構築した.いずれのモデルも,Python package scikit-learn(scikit-learn, 2024)を用いて構築し,ハイパーパラメータのチューニングには,scikit-learn の RandomizedSearchCV を用いた.この手順を 100 回繰り返すことにより,5 つのアルゴリズムそれぞれで,
個の学習サンプル
それぞれに対するモデルが構築された.
最後に評価指標を算出した.データ
から,サンプルサイズ 10,000 の評価サンプル
を抽出し,異なる 2 つのモデルの評価サンプル
に対する予測値
を算出することを,
回繰り返し,DOSACA の推定値を計算した.各アルゴリズムの全体に対する安定性と分類精度も評価するために sACA と Accuracy も算出した.Accuracy は目的変数
と予測値
が一致している個体の割合によって予測精度を評価する指標であり,
で定義される.本実験にて Accuracy を求める際には,目的変数が既知であるサンプルサイズ 10,000 のテストデータ
を新たに生成し,学習サンプル
で構築したモデルを用いてテストデータに対する予測値
を算出し,予測値と目的変数の一致率
を算出した.
また,それぞれの評価指標の分布を調べるために,上記の手順を 100 回繰り返し,各評価指標の平均と標準偏差を算出した.
5.2. 結果Case1~Case3 に対する DOSACA の結果を図1に示す.また,Case1~Case3 に対する sACA と Accuracy の結果は付録 B に示す.DOSACA は −1 から 1 までの値をとり,値が大きいほど保護クラスに対して不安定であるという不公平が生じていることを示す.また,sACA,Accuracy はそれぞれ値が大きいほど安定性,分類精度が良好であることを示す.
Case1(図1 上段),Case2(図1 中段)では,全体としてサンプルサイズが大きくなるほど,DOSACA の絶対値が小さくなっており,安定性が保護クラスと非保護クラスで等しくなる傾向が見られた.ただし,Case2 においては決定木のみサンプルサイズが最大である 100,000 の時に保護クラスに対し不安定なモデルとなっていた.Case1 と Case2 において,ランダムフォレストと勾配ブースティング決定木では良好な DOSACA を示す場合が多かった.一方で,ロジスティック回帰とニューラルネットワークでは,特にサンプルサイズと保護クラス割合が小さい時に DOSACA が大きな値を示しており,保護クラスに対して不安定であるという不公平が生じる傾向があった.しかし,ロジスティック回帰とニューラルネットワークの Case1 と Case2 における全体に対する sACA と,Case1 における全体に対する Accuracy は,木に基づくアルゴリズムよりも比較的良好な値を示していた.つまり,全体に対する安定性や予測精度がよいアルゴリズムでも,保護クラスの安定性が非保護クラスよりも悪くなる場合が存在している.
Case3(図1 下段)では,Case1, Case2 とは異なり,ニューラルネットワーク以外のアルゴリズムにおいて DOSACA の平均値が負となっており,非保護クラスに対する安定性が保護クラスよりも悪い場合も存在することがわかった.さらに,ニューラルネットワークでは,サンプルサイズによって,DOSACA の平均値が負となる場合と正になる場合が異なっていた.

2 種類の実データを用いて,数値実験に用いた 5 つの既存のアルゴリズムについて,安定性の観点で公平性を評価した.1 つめのデータは,将来の心血管疾患の発症有無を目的変数とし,性別・年齢・喫煙の有無・既往歴など 15 個の変数を説明変数とする対象者数 319,795 のデータである(Zhang, 2023).このデータではセンシティブ属性を人種,保護クラスを黒人とし,非保護クラスをそれ以外の人種とおくこととする.保護クラスの割合は 7.17% である.以後,このデータを心血管疾患データと呼ぶ.2 つめのデータは,あるオランダの企業の人事採用に関するデータである(Labidi, 2024).採用の可否を目的変数とし,性別・年齢・大学の偏差値・研究歴・プログラミング経験の有無など 16 個の変数を説明変数とする対象者数 4,000 のデータである.このデータでは,センシティブ属性を国籍,保護クラスをオランダ以外の国籍,非保護クラスをオランダ国籍とみなす.保護クラスの割合は 20.8% である.以後,このデータを採用データと呼ぶ.
6.1. 方法いずれのデータも欠損がなかったため全てのデータを利用した.まず,データ
から学習サンプル
を復元抽出し,それぞれの学習サンプルでモデルを構築した.学習サンプル
のサイズは,心血管疾患データについては 20,000 とし,採用データについては 3,000 とした.予測アルゴリズムには数値実験同様,Python package scikit-learn のロジスティック回帰,ニューラルネットワーク,決定木,ランダムフォレスト,勾配ブースティング決定木を用い,ハイパーパラメータのチューニングには,scikit-learn の RandomizedSearchCV を用いた.この手順を
回繰り返すことにより,5 つのアルゴリズムそれぞれで,
個の学習サンプル
それぞれに対するモデルが構築された.そして,異なる 2 つのモデルの評価サンプル
に対する予測値
を算出し,DOSACA の推定値を算出した.評価サンプル
は学習に用いなかったデータからの復元抽出によって作成し,サイズは,心血管疾患データで 10,000,採用データで 1,000 とした.
各アルゴリズムの全体,保護クラス,非保護クラスに対する安定性と分類精度も評価するために,全体,保護クラス,非保護クラスそれぞれに対する sACA と Accuracy も算出した.Accuracy を求める際には,テストデータとして,学習に用いなかった説明変数
と目的変数
がセットになったデータ(サンプルサイズ
は心血管疾患データで 10,000,採用データで 1,000)を用いており,学習サンプル
で構築したモデルを用いてテストデータに対する予測値
を算出し,予測値と目的変数の一致率
を算出した.
また,それぞれの評価指標の分布を調べるために,上記の手順を 100 回繰り返し,各評価指標の平均と標準偏差を算出した.
6.2. 結果図2 の 2 つのグラフはそれぞれ心血管疾患データと採用データを用いて行った解析の DOSACA に対する結果である.両データにおける sACA,Accuracy に対する結果は付録 C に示す.いずれも,各アルゴリズムを用いて予測モデルを構築した際の各評価指標の平均値と標準偏差が示されており,棒グラフは平均値を,エラーバーは標準偏差を示している.
図2(左)の心血管疾患データにおける結果は,数値実験の Case2 の
= 0.05 の際の結果に似通っており,サンプルサイズが大きく保護クラス割合の小さな本データでは,安定性の公平性,全体的な安定性,分類精度のいずれも決定木が他 4 つのアルゴリズムに比べて悪いという結果となった.本データにおいては,全体に対する安定性と分類精度,安定性の公平性,分類精度の公平性いずれもロジスティック回帰が良好であったことから,本データを用い心血管疾患を予測するモデルを構築する場合には,ロジスティック回帰を用いることで,予測精度も安定性もよく,人種による不公平が生じにくいモデルが構築できると考えられる.
図2(右)の採用データにおける結果からは,ロジスティック回帰とランダムフォレストでは DOSACA の平均値が負に,他 3 つのアルゴリズムでは DOSACA の平均値が正になっており,アルゴリズムによって保護クラスと非保護クラスのどちらの安定性がより良いかは異なるという結果となった.また,本データにおいて,ロジスティック回帰は全体に対する安定性が良いが予測精度が悪く,決定木は全体に対する安定性が悪いが予測精度が良く,これら 2 つのアルゴリズムは安定性・予測精度は比較的不公平であった.このことから,予測モデルを構築する目的に応じてアルゴリズムを選択すべきだといえる.例えば,学習サンプルの更新がほとんどない場合には,予測精度を選択すべきであるし,学習サンプルの更新頻度が高く,センシティブ属性に対する差別に強く配慮する必要がある場合には,安定性や安定性に対する公平性が良好な勾配ブースティングを選択すべきであろう.

これまで保護クラスと非保護クラスで予測精度がどれほど等しいかを評価する公平性の評価手法が開発されてきた一方で,保護クラスと非保護クラスで安定性(stability)がどれほど等しいかを評価する公平性の評価手法が存在しなかった.つまり,不公平から守られるべき集団に対して予測結果が大きくばらつくアルゴリズムが存在する可能性がありながら,それを検出する方法が存在しなかった.こうした背景に対して我々は,二値分類を行う予測アルゴリズムに対して安定性の観点から不公平さを評価する指標を開発することを目的とし,DOSACA を開発した.そして,機械学習アルゴリズムの安定性に対する公平性を評価することを目的とし,ロジスティック回帰,ニューラルネットワーク,決定木,ランダムフォレスト,勾配ブースティング決定木の 5 つのアルゴリズムの DOSACA を比較する数値実験と実データ解析を行った.
数値実験の結果から,木に基づくアルゴリズムに比べてロジスティック回帰とニューラルネットワークでは,サンプルサイズや保護クラス割合が小さい時,つまり,保護クラスの絶対数が小さいようなときに安定性が不公平となる可能性があることがわかった.また,数値実験と実データ解析の結果から,木に基づくアルゴリズムは多くの場合で安定性に対する公平性が良好であるものの,決定木ではサンプルサイズが非常に大きいときには安定性が不公平になる可能性があることがわかった.
また,数値実験と実データ解析を通じて得られた重要な発見は,二値分類問題における安定性に対する公平性の良し悪しは,全体に対する予測精度や安定性とは相関しない可能性があるということである.実際に数値実験の Case1 では,保護クラスの絶対数が小さい時,ロジスティック回帰とニューラルネットワークの DOSACA が他のアルゴリズムに比べて悪いのに対し,これらアルゴリズムの sACA と Accuracy は他のアルゴリズムに比較して良好であった.また,実データ解析の採用データのケースにおいては,決定木の DOSACA が他のアルゴリズムに比べて悪いのに対し,決定木の Accuracy は他のアルゴリズムに比較して良好であった.これまで Philipp et al.(2018)により,安定性と予測精度という 2 つの概念はアルゴリズムやデータセット間で必ずしも一致したり明示的に相互に関連しているわけではないことが明らかにされてきたが,本研究は,この事実に加え,安定性と予測精度の 2 つの概念が,安定性に対する公平性と相互に関連しているわけではないことを明らかにした.こうした状況において重要なのは,予測モデルを構築するタスクに応じて予測精度だけでなく,安定性や安定性に対する公平性を評価し,各評価指標の値を比較することで慎重に予測アルゴリズムなどを選択することであろう.例えば,将来的に学習サンプルが更新され続ける状況で,雇用の可否の決定のように,国籍や性別に基づく差別に強く配慮したモデル構築が望まれるとき,差別から守られるべき集団に対し結果が安定しないようなアルゴリズムを選択すべきではない.もし安定性が公平でないアルゴリズムを選択すれば,差別から守られるべき集団に対してのみ信頼できない結果を返すことになりうる.これは,女性や外国籍などの保護クラスに対して不利益な結果をもたらす可能性があり,また,Amazon 採用システムの事例のように予測モデルに対する社会的信用を損なう問題へと発展しうる.
本研究では,安定性に対する公平性を評価する新しい指標の開発と数値実験によるコントロールされた条件下でのアルゴリズムの比較検討に主眼をおいた.よって今後は,実データを用いた検証を多角化し,実社会における本指標の有用性についてより深く検討していきたい.また,数値実験で明らかとなった各アルゴリズムの安定性に対する公平性の特性の要因を明らかにするために理論的研究や実験を行いたい.さらに,回帰や確率予測など,二値分類以外の予測に関する問題において,安定性に対する公平性を評価できる指標の開発に取り組みたい.
図3 は数値実験に用いたデータの分布を表している.横軸に
を,縦軸にアウトカム生起確率
をとっている.橙色は
であるデータを,青色は
であるデータを表す.Case1 では 図3 左に記載のシグモイド関数で,Case2 では任意の定数を割り付けることによるツリー関数で,Case3 では 図3 右に記載の条件分岐を含むシグモイド関数で説明変数に対してアウトカム生起確率
を割り付けている.
図4 は,数値実験における Case1,Case2,Case3 の SACA の結果を表している.SACA は値が大きいほど類似度が高いこと,つまり,安定性が良好であることを表す.図5 は,数値実験における Case1,Case2,Case3 の Accuracy の結果を表している.Accuracy は値が大きいほど分類精度が良好であることを表す.
C. 実データ解析における SACA と Accuracy の結果
図6 は心血管疾患データと採用データそれぞれに対する SACA と Accurac の結果を表している.いずれの図においても,棒グラフは指標の平均値を,エラーバーは指標の標準偏差を表す.灰色の棒グラフは全体に対する指標の値を,小さなドットの赤い棒グラフは保護クラス,つまり,
である集団に対する指標の値を,大きなドットの青い棒グラフは非保護クラス,つまり,
である集団に対する指標の値を表している.



