2024 Volume 2023 Issue FIN-032 Pages 80-95
私たちは、複数のクライアントがそれぞれ異なる性質を持つデータを有している状況での、分散学習の問題を考える。金融やマーケティングでは、各組織が機密性の高い情報をそれぞれ持っていることが多い。そうしたデータの機密性を保ったまま、各組織が協力してモデルを学習することは長年の課題である。このような問題に対して、クライアントがデータそのものを共有するのではなく、各クライアントがそれぞれ訓練したモデルを統合することで、より性能の高いモデルを訓練する連合学習が、新しい分散学習の枠組みとして提案されている。連合学習は、その有用性にもかかわらず、クライアントのデータ分布の不均一性に弱いことが指摘されている。本研究では、クライアントの期待リスクに関する統計理論を構築することにより、この問題を検討する。私たちの貢献は二つある。第一に、連合学習によって達成されるクライアントの最小リスクを評価する。私たちは、連合学習が最悪の場合全てのクライアントのデータを反映できないことを示す。第二に、クライアントのデータ分布の不均一性を解決するための新しい手法を提案する。それは密度比推定と勾配コミュニケーション学習である。提案手法では、クライアントの期待リスクはサンプルサイズに対して最適な収束レートを達成する。さらに、この結果を応用し、効用分析により期待リスクとコミュニケーションコストのトレードオフを調べる。私たちは、数値実験によってこれらの理論的知見を支持する。