Journal of Computer Chemistry, Japan
Online ISSN : 1347-3824
Print ISSN : 1347-1767
ISSN-L : 1347-1767
Commentary
Analysis of COVID-19 Mortality in Japan byUsing Support Vector Machine
Kazutoshi TANABETakahiro SUZUKI
Author information
JOURNAL FREE ACCESS FULL-TEXT HTML
Supplementary material

2021 Volume 20 Issue 2 Pages A41-A48

Details
Abstract

全世界に蔓延している新型コロナウイルス(COVID-19)の日本における死亡要因を探るために,都道府県別の死亡率を目的変数とし,生活や健康,社会経済的要因など各種の指標を説明変数として重回帰分析による実証研究を試みた.目的変数と説明変数との非線形関係に対処するためにSupport Vector Machineを適用し,感度分析により要因を探索した.その結果,死亡率を上げる危険要因として生活保護,都市化,貧困率,サービス業,性比の5種,死亡率を下げる防御要因として単独世帯,食事,睡眠の3要因,併せて計8種の要因が得られた.特に,いわゆる「三密」に関連する都市化,サービス業,単独世帯の3要因の寄与がもっとも大きいこと,次いで貧困層の実態を反映する生活保護と貧困率の寄与が大きいことなど,新型コロナウイルスの予防対策に関して新規かつ有用な知見が得られた.

Translated Abstract

To look for factors of the COVID-19 spreading in the whole world currently, an empirical study has been tried by using a multi-regression analysis for mortality rates of 47 prefectures as an objective variable, and various indices as the explanatory variables. A support vector machine method was applied to deal with a nonlinear relationship between objective and explanatory variables, and a sensitivity analysis was applied to search the factors of the COVID-19 mortality. Welfare, urbanization, poverty rate, service industry, and sex ratio were obtained as dangerous factors which increase mortality, while single-person households, meals, and sleep were obtained as defensing factors which decrease mortality. Novel and useful knowledge for prevention measure of the COVID-19 was obtained: three factors of urbanization, service industry, and single-person household relating to the Three Cs contribute largest to the mortality, and two factors of welfare and poverty rate, reflecting the reality of the poor people also contribute.

1 はじめに

2019年12月,中国湖北省武漢市が発生源とされる新型コロナウイルス(COVID-19)は全世界に蔓延し,2020年9月30日時点での世界中の累計感染者は4千万人,死者は100万人に達し,依然増大傾向にあり,現時点で感染拡大のペースは衰えていない.このウイルスに感染すると,風邪のような症状だけで済むことも多いが,肺炎等を発症して落命することもある.中国のデータに基づく分析によれば,新型コロナウイルス感染患者の81%は軽症で,重症は14%,重篤は5%,死亡は2.3%となっている.また,総人口に対する死亡率は国により大きな差異があり,全般的に欧米先進国が高く,アジアとアフリカの途上国が低いという他の感染症とは傾向が異なっている.

人類の歴史を振り返ると,様々な感染症がパンデミックを引き起こしてきており,現在に近いものとしては,2002年に中国広東省で発生し,世界30ヶ国で感染者8千人,死者900人を招いたSARS (重症急性呼吸器症候群)や,2012年に中東で発生し,患者2千人,死者800人を招いたMERS (中東呼吸器症候群)がある.これらと比較すると,今回のコロナウイルスの被害は桁違いに大規模であり,どこまで拡大するか予断できない状況である.したがって,今後の被害を最小限にするためには,新型コロナウイルスの感染や死亡に影響する社会経済的要因を解明することが大事である.

ところで,20世紀後半以降,個人や集団の健康や病気が遺伝等の先天的要因だけでなく,経済,社会,文化,環境等の後天的要因によっても影響されることが広く認められるようになった.WHOの報告書"Social Determinants of Health: The Solid Facts"は健康格差の社会的要因として,社会格差,ストレス,社会的排除,労働,失業等の10項目を挙げている.新型コロナウイルスの感染や死亡についても,医療体制,過密,高齢,貧困,生活習慣等,多くの社会的要因が影響するとされている.

想定される多数の要因の中から疾患の発症や死亡に重大な影響を与える要因を解明する手法として,国や地域等の異なる集団間の罹患率や死亡率と個々の要因との相関を分析する地域相関法がある.この手法を用いて様々な疾患について発症率や死亡率に対する要因の解明研究が行われてきた.しかし,個々の要因と死亡率等との相関係数には他の要因の影響が含まれるため,この手法で重要な要因を推定することは難しい.

多数の要因の中から重大な影響を与える要因を解明する方法として,複数地域の罹患率や死亡率を目的変数,複数の要因を説明変数として重回帰分析を行う方法があり,この方法で新型コロナウイルスの罹患率や死亡率について要因解明を行った論文がある.しかし,これまでの論文では少数の説明変数を用いて線形重回帰分析(OLS)で解析しているため,結果の信頼性には疑問がある.

本研究では,都道府県別の新型コロナウイルスの死亡率を目的変数とし,多数の社会経済的指標を説明変数として非線形重回帰分析を行い.新型コロナウイルスの死亡要因を探索する実証研究を試みた.

2 方法

2.1 死亡率のデータ

重回帰分析の目的変数には,2020年10月3日時点で各都道府県が公表した累計死亡者数を人口で割った死亡率を用いた.Figure 1に示すように,都道府県別の死亡率は格差が大きく,最大の石川県や,2位の沖縄県,3位の東京都が30以上の死亡率であるのに対し,岩手,秋田,新潟,鳥取,島根,佐賀の6県は死亡率0である.

Figure 1.

 Death Rate of COVID-19 by Prefecture (as of October 3rd, 2020)

また,全体的な傾向としては,東京,大阪,福岡等の人口の多い都府県が高く,下位には岩手等の過疎県が並ぶことから,死亡率には密閉,密集,密接のいわゆる「三密」が関係していることが予想される.しかし,人口がそれほど多くない石川県が1位,沖縄県が2位,富山県が5位となっていることは,人口密度関連以外の要因の関与を示唆する.

2.2 説明変数

説明変数については,新型コロナウイルスの感染や死亡の要因に関する先行研究がきわめて少ないため,関連する肺炎に関する論文で検証された要因を参考に,生活習慣,医療・福祉,経済,労働,人口・世帯,教育,地理・環境の7分野の変数36種(Table 1)を採用した.これらの変数は下記の感度分析による要因探索のために数値0と1の間に規格化した.

Table 1  Definitions of Explanatory Variables and Their Data Source
Category Explanatory Variables Definition Data Source
Lifestyle Smoking The ratio of daily smokers Comprehensive Survey of Living Conditions
Drinking The ratio of daily alcohol-drinkers Comprehensive Survey of Living Conditions
Meal The ratio of those who eat meals regularly Comprehensive Survey of Living Conditions
Exercise The ratio of those who exercise daily Comprehensive Survey of Living Conditions
Sleep The ratio of those who have enough sleep Comprehensive Survey of Living Conditions
Medical/Welfare Hospital Number of hospitals per population Survey of Medical Institutions
Bed Number of beds per population Survey of Medical Institutions
Doctor Number of doctors per population Statistics of Physicians, Dentists and Pharmacists
Nurse Number of nurses per population Report on Public Health Administration and Services
Public Health Nurse Number of public health nurses per population Report on Public Health Administration and Services
Nursing home Number of nursing homes per population over 65 years old Social Indicators by Prefecture
Economy Family income The annual income of a family Prefectural accounts
Gini coefficient Index for income divide The national survey of family income and expenditure
Poverty rate Index for poverty rate The national survey of family income and expenditure
Welfare Welfare expense per a welfare receiver Social Indicators by Prefecture
Labor Labor force Rate of the labor force National Census
Dual income Rate of the dual-income household National Census
Unemployment rate total unemployment rate National Census
agricultural, forestry, and fishing Rate of agricultural, forestry, and fishing workers National Census
Manufacturing Rate of workers in the manufacturing industry National Census
Sales Rate of workers in the sales industry National Census
medical welfare Rate of workers in medical welfare service National Census
Service industry Rate of workers in the service industry National Census
Population/Household Population density Population per resident area National Census
Urbanization Rate of the population in the densely inhabited district National Census
Gender rate Gender rate in population National Census
Aging Rate of the elderly over 65 years old in population National Census
Household member The average number of household members National Census
Single household Rate of single household National Census
Education Junior high Rate of junior high school graduate as a final education record National Census
High school Rate of high school graduate as a final education record National Census
College/University Rate of college or university graduate as a final education record National Census
Geography/Environment Elevation Elevation (height above sea level) of the prefectural capital Japan Meteorological Agency
Temperature The Average temperature of the prefectural capital Japan Meteorological Agency
Rainfall Measure quantity of rainfall of prefectural capital Japan Meteorological Agency
Air pollution Average air pollutant concentration of prefectural capital Japan Meteorological Agency

2.3 解析方法

肺炎等の各種疾患の要因分析を行った先行研究では,一般的な線形重回帰分析(OLS)が多用されてきた.しかし,説明変数の中には目的変数に対して非線形関係を示すものが多いため,OLSでは統計的に有意な結果を得ることは難しいと考えられる.そこで,これまではこのような非線形関係に対処するために,一部の説明変数の2乗,3乗の項の追加や,対数変換を行った論文がある.しかし,これらの対処はad hoc的なものであり,完全な解決策とはいえない.

本研究では,この問題を解決するために非線形重回帰分析の手法としてSupport Vector Machine (SVM) [1,2,3,4]を適用し,ソフトウエアはLIBSVM [5]を用いた.SVMは,説明変数の数値に対してカーネルと呼ぶ非線形関数を用いて学習パターンを別の空間(超平面)に写像し,その空間で線形回帰を行う.この操作により,説明変数の元の数値での非線形回帰が可能になり,目的変数と説明変数の間の任意の関係に対して高精度の回帰結果が得られる.

また,多数の説明変数の中から要因を探索する方法としては感度分析法を用いた.この方法は,目的変数に対する各説明変数の正味の感度を計算し,感度の低い変数を順次削除しながらSVMモデルを最適化し,予測値と実測値の平均二乗誤差が最小となる変数の組を探索する方法である.この方法は筆者らが開発し,様々な問題において有効性を確認している [6,7,8,9,10,11].

また,先行研究では,全データで回帰モデルを学習した際の結果に対して,平均二乗誤差(RMSE)や回帰決定係数(R2)等の指標を計算して要因を探索していることが多いが,この方法では回帰モデルの性能を厳密に評価していない.本研究では,回帰性能をより厳密に評価する方法として,1個抜き交差検証法を採用した.

そこで,感度分析法と交差検証法を組み合わせた以下の手順により要因の探索を行った.

① 1つの都道府県を予測セット,他の46都道府県を学習セットとし,学習セットのデータを用いてSVMのモデルパラメータをグリッドサーチして最適条件を探す.

② この最適モデルに予測セットのデータを入力して死亡率の予測値を求める.

③ 次の都道府県以下を予測セットとして以上の操作を繰り返し,全都道府県について死亡率の予測値と実測値との平均二乗誤差(RMSE)を求める.

④ 各説明変数の感度を求めるために,当該変数は実際の数値に設定し,その他の変数は全都道府県の平均値に設定したデータセットを最適モデルに入力し,出力値を求める.

⑤ 当該変数の実測値を説明変数,出力値を目的変数とする単回帰分析を行い,回帰直線の傾きをその変数の感度とする.

⑥ 全説明変数の中で感度の絶対値の最も小さい変数を取り除き,①~⑤の操作を繰り返し,RMSEが最小になる説明変数の組み合わせを死亡率の決定要因とする.

3 結果

以上の方法で36種の説明変数の中から有意な要因を探索した結果,8種の変数を用いた時に死亡率の予測誤差が最小となった.また,SVMの有効性を検証するために,同じ8種の説明変数を用いてOLSを実行した.Figure 2に示すように,OLSでは死亡率が20以上になると実測値との誤差が大きくなる.一方,SVMでは死亡率の最大値から最小値までの全範囲で予測値と実測値の一致がよく,Table 2の自由度調整回帰決定係数(AR2)から,この8種の説明変数が47都道府県の新型コロナウイルス死亡率を危険率1%で有意に説明する要因であると判定される.

Figure 2.

 Observed Death Rate vs Prediction (Left:SVM、Right:OLS)

Table 2  Predictions of Death Rate by SVM and OLS
Method Root Mean Square Error(RMSE) Multiple Correlation Coefficient (R) Coefficient of Determination(R2) Adjusted Coefficient of Determination (AR2)
SVM 3.68 0.945 0.892 0.866
OLS 11.76 0.832 0.692 0.617

得られた各要因の死亡率への相対的影響度について考察するために,要因iの感度Siから式   

C i ( % ) = S i 2 i = 1 8 S i 2 × 100 (1)
により死亡率に対する寄与率Ciを推定した.要因8種の内訳,死亡率に対する感度,寄与率,および相関係数を表3に示す.

Table 3  Identified Factors of Death Rate and Their Sensitivity, Contribution, and Simple Correlation Coefficient
Ranking Factor Category Sensitivity Contribution to Death Rate (%) Simple Correlation Coefficient with Death Rate
dangerous factor defensing factor
1 Welfare Economy 0.376 16.1 0.562
2 Urbanization Population/Household 0.367 15.2 0.535
3 Poverty rate Economy 0.350 13.9 0.218
4 Service industry Labor 0.328 12.2 0.612
5 Single household Population/Household -0.316 11.3 0.415
6 Meal Lifestyle -0.312 11.0 -0.712
7 Sleep Lifestyle -0.305 10.5 -0.345
8 Gender rate Population/Hoursehold 0.292 9.7 0.211

4 考察

表3に示した要因の感度は,感度分析において他の説明変数は固定し,当該変数のみ変化させた場合の死亡率の変化から求めたことから,死亡率に対する当該要因の正味の影響度を表わしている.したがって,感度が正の要因は死亡率の上昇要因(すなわち,危険要因)であり,負の要因は下降要因(すなわち,防御要因)であると解釈できる.また,生活保護(円)と貧困率(%)のように単位の異なる要因についても,それらの感度の大きさにより,死亡率への影響度についての比較考察が可能である.さらに,上式で求めた寄与率により,各要因の死亡率への相対的影響度についての議論が可能である.

また,先行研究の中には,死亡率との相関係数に基づいて死亡率に有意な説明変数を探索する手法を用いた論文もあるが,この手法にも疑問がある.本研究で用いた36種の全説明変数について,感度分析で得られた感度と,死亡率に対する単相関係数との散布図をFigure 3に示す.要因の中には相関係数の絶対値が低いものがあること,また,要因にならなかった変数の中には相関係数の絶対値が高いものがあること,さらに,感度と相関係数が異符号のものがあることが分かる.これらの原因は,表3に示した要因の感度が,上記のように,死亡率に対する当該要因の正味の影響度を表わしているのに対し,相関係数には他の変数の影響が含まれるためである.したがって,相関係数に基づいた先行研究の結果には疑問があることが示唆される.

Figure 3.

 Simple Correlation Coefficient vs Sensitivity for All Explanatory Variables (Closed Circle:Identified Factors、Open Circle:Others)

本研究では,Table 2のように7分野から選定した36種の説明変数を用いて解析したが,表3に示した要因8種は,その内の生活習慣,経済,労働,人口・世帯の4分野である.また,それらの要因の死亡率への寄与率を分野別に集計すると表4のようになり,新型コロナウイルスの要因が広い分野にまたがっていることがわかる.

Table 4  Contributions of Identified Factors by Category
Ranking Category Factors Number of Factors Total Contribution (%)
1 Population/Household Urbanization,Single household,Gender rate 3 36.2
2 Economy Welfare,Poverty rate 2 30.0
3 Lifestyle Meal, Sleep 2 21.6
4 Labor Service industry 1 12.2

これに対し,新型コロナの感染率や死亡率について重回帰分析を行った先行研究は2報あるが,用いた説明変数に問題がある.調ら [12]は都道府県別の新型コロナ感染率についてOLSを行ったが,説明変数は人口密度,都市化等の5種のみである.榊原・大薗 [13]は感染の予防行動について分析したが,説明変数は年齢,性別,性格,疾患,収入,家族等の数種にすぎない.したがって,これら2報の説明変数は狭い分野の少数であるため,その結果には疑問がある.以上から,本研究のように多分野の多種多様な説明変数の中から要因を探索する解析手法が必要不可欠であると結論される.

Table 3に示す結果の内でもっとも注目すべきは,密閉,密集,密接のいわゆる「三密」との関連が想定される3要因,すなわち,都市化,サービス業,単独世帯が上位に入り,しかも,これら3要因の寄与率の合計が38.8%に達し,新型コロナの感染・死亡には「三密」が重大要因とされていることを実証したことである.

これら3要因の内,2位の都市化は人口集中地区の人口の割合であり,「三密」に関連する要因であることは明らかである.しかし,本研究ではTable 1に示すように,人口密度も説明変数に採用して解析したが,これは要因とはならなかった.この点で都市化と人口密度とは明らかな差がある.たとえば,北海道は人口密度が国内最下位であるが,札幌市等の人口集中地区には人口が集中しており,北海道全体での都市化率は国内8位と高い.

要因4位のサービス業が危険要因となった結果については,飲食業や宿泊業等の観光関連産業が活発な地域は経済活動が活発で,それだけに人的接触の機会が多く,「三密」に関連することを示している.中でも,サービス業従事者が国内で突出している沖縄県は,新型コロナ死亡率が石川県に次ぐ国内2位であり,危険要因としてのサービス業の重要性を示している.

要因5位の単独世帯については,表3に示したように感度が負で防御要因になったが,この結果は,世帯人員が多いほど密接の機会が多くなり,感染率が高くなるとの予想を実証している.また,この結果は榊原・大薗 [13]の結果とよく対応しており,彼らは感染の予防行動についてOLS分析し,世帯人数が多いほど感染率が高くなることを示した.しかし,各都道府県の単独世帯率をみると,東京都が国内1位である一方,山形県や秋田県をはじめとする東北地方は世帯人員が多く,単独世帯率は低い.そのため,新型コロナの死亡率と単独世帯率との単相関係数は表3に示すように0.415と正になる.したがって,この単独世帯率は感度と単相関係数が異符号になり(Figure 3),相関係数に基づいた分析の結果には注意する必要があることを示唆する.

一方,これまで「三密」の観点から関連する指標を説明変数に採用して解析した先行研究としては,調ら [12]の論文が唯一である.しかし,彼らは人口密度,都市化等のわずか5種類の説明変数を用いてOLSを行ったため,その結果には疑問がある.

次に,注目すべき結果は,要因1位の生活保護と,3位の貧困率であり.これら2要因は国内における貧困層の実態を示す経済分野の指標である.それらの寄与率の合計が30.0%になることから,新型コロナの死亡にはこれらの経済的要因の寄与が大きいことが分かる.この結果に対し,生活保護や貧困率等の説明変数を用いてOLSを行い,これらの指標が新型コロナの死亡や感染の要因であることを実証した先行研究はない.貧困層の実態を示す生活保護と貧困率の寄与が非常に高いという本研究の結果は,新型コロナの死亡・感染対策に有用な情報を与えると期待される.

次に注目すべきは要因6位の食事(規則正しく食事している人の割合)と要因7位の睡眠(睡眠を十分にとっている人の割合)である.それら2要因の寄与率の合計は21.6%と高くないが,このような個人の生活習慣に関する指標が新型コロナの死亡要因になるという結果は予想外である.これまで新型コロナ感染に対する食事や睡眠の影響を概説した論文 [14, 15]はあるが,重回帰分析により生活習慣要因を分析した先行論文はない.個人の生活習慣に関する指標が要因になるという本研究の結果は,新型コロナの予防には社会インフラの整備だけでなく,個人の健康意識の向上も有効であることを実証している.

5 結論

本研究では,新型コロナウイルス(COVID-19)の死亡要因を明らかにするために,都道府県別の死亡率を目的変数とし,36種の社会経済的指標を説明変数とし,Support Vector Machineによる非線形重回帰分析を行った.その結果,47都道府県の死亡率を有意に再現する8種の要因が得られ,いわゆる「三密」に関連する都市化,サービス業,単独世帯の3要因の寄与がもっとも大きいことや,貧困層の実態を反映する生活保護と貧困率の寄与が大きいことなど,新型コロナウイルスの予防対策に関して新規かつ有用な知見が得られた.さらに,8種の要因が4分野にまたがっていることから,多分野の多数多様な説明変数の中から非線形重回帰分析により要因を探索する本研究の解析手法の有効性を実証した.

現在,世界中の人間は新型コロナウイルスとの悪戦苦闘を余儀なくさせられている.しかし,ウイルスだけでなく,細菌や微生物などによる感染症は広く生物界に存在しており,100年前のスペイン風邪等,人類は感染症と闘いながら歴史を刻んできた.また,感染症は致死率の高いものから低いものまで常に人間とともにあり,そこから逃れることはできないといわれている.したがって,人間は感染症に対する対策をいつまでも続ける努力が要求される.

我々はこれらの問題に対処すべく,今後,国内・国外の多種多様なデータを用いた解析を行い,要因を検証する研究を行うことを計画している.

参考文献
 
© 2021 Society of Computer Chemistry, Japan
feedback
Top