自然災害による被害が多発している現在,このような自然現象に対する地域統計モデリングは環境統計の分野で重要になっている.例えば大雨の時の降水量データに注目し,地域統計モデルから情報を得られれば洪水による被害を未然に防ぐための対策に役立てることができる.このようなデータのモデルを考える際には分布のすそのふるまいに注目することになるが,このアプローチに極値統計学がある.
本論文では複数地点のデータを同時に捉えるために多変量極値モデルを考える.特に空間における極値統計のモデリングに注目し,多変量極値分布を地球統計学のベースであるガウス確率場の枠組みに拡張したmax-stable process による極値モデルを考え,日本の年最大日降水量データに適用した結果を示す.本研究ではより柔軟なモデリングのために,周辺分布のパラメータに共変量を含む一般極値モデルを用いることを考える.モデルに当てはめた結果より,緯度,標高と降水量データの関係が分かり,30年再現レベルの信頼区間が1地点のみのデータを用いて求めた場合よりも多くの地点で小さくなった.またモデルを通して年最大日降水量の時間の経過による傾向変化を明らかにし,一方で気温やエルニーニョ現象といった気象要因との関係性があるとはいえないということが分かった.さらにシミュレーションにより未観測の地点も含めた地域全体における,現在と2050年の将来予測値の30年再現レベルを計算し,最後に日本の年最大日降水量データの解析によく用いられてきた地域頻度解析と本研究の手法の比較について述べた.
生存時間解析では,観測開始時点で記録される共変量の値が,目標事象発生(打切りあるいは死亡)まで一定であるとして解析してきた.しかし,患者は観測期間中モニタリングされ,目標事象までに種々のイベント発生の検査値が記録される.本稿では,共変量の値が時間に依存して変化する骨髄移植(同種造血幹細胞移植)データを取上げる.イベント発生ごとに変化する共変量の時系列情報を取込むため,自然言語処理の分野で急激な発展を遂げているリカレントニューラルネットワーク(Recurrent Neural Network;RNN)を活用する.具体的には,ブートストラップ法を援用し,最適な隠れユニット数の決定,影響分析による外れ値の検出,モデル改善の検証,およびモデルの適合度検定などを目途とする.部分ロジスティックモデルを拡張したフィードフォワードニューラルネットワーク(Feed-Forward Neural Network;FFNN),更にそれに帰還路を加えたRNNを活用することにより,非線形なイベントヒストリー解析が可能になる.RNNを活用し,観測期間中のイベント発生時点における,ある共変量のもとでの半年後条件付き生存確率を予測すれば,従来のFFNN,部分ロジスティックモデルおよびCoxの比例ハザードモデルに比べて,イベントの発生現象を的確に表現できる.
日本の統計的品質管理活動は,虚偽のデータを企業から無くすことを目的の一つとして掲げてきた.しかし,2017年以降生じた品質データ改ざんは,データ駆動型社会に向かうわが国にとって大きな課題を突き付けた.本フォーラムでは,日本がデータ駆動型社会に向かう際に,必要な品と質と人財に関するマネジメントの在り方について議論する.特に,どのようなデータサイエンティストを育成すべきか,またデータがもたらす経済価値とは何か,そのデータが改ざんされた場合の社会損失はどのようなものかについて議論したい.