差分プライバシー基準を満たした機械学習モデルにおけるプライバシーデータ暴露の回避

小松 史弥; 竹川 高志

doi:10.11517/pjsai.JSAI2022.0_1D5GS1101

抄録

近年，機械学習により様々なデータ活用が可能になった．一方，データの利用機会が増加することで，機械学習モデルからのデータ侵害について指摘されている．例えば電子メールの作成中に，入力候補を提示してくれるモデルについて考える．ユーザーが作成したメールの本文を用いて学習し，次に入力する候補を予測して生成する．このモデルでクレジットカードに関するテキストをユーザーが入力したとき，学習に用いられた誰かのクレジットカード番号が提示されてしまうことはデータ侵害である．本研究ではデータ侵害対策として，TensorFlow Privacyというライブラリで提供されている差分プライバシーを満たした最適化アルゴリズムであるDP-Adamを用いて，RNNによるテキスト生成タスクに取り組んだ．ここで個人情報に見立てたダミーデータの暴露を防ぐことができるかを実験した．結果，差分プライバシーを満たしたモデルではダミーデータ暴露の回避が確認できた．また過学習対策として用いられるL1正則化でもダミーデータの暴露が回避された．しかし，L1正則化モデルが生成したテキストには，存在しない単語が含まれていた．

著者関連情報

お気に入り & アラート

閲覧履歴

責任著者(Corresponding author)

会議情報

J-STAGEへの登録はこちら（無料）