主催: 一般社団法人 人工知能学会
会議名: 2022年度人工知能学会全国大会(第36回)
回次: 36
開催地: 京都国際会館+オンライン
開催日: 2022/06/14 - 2022/06/17
近年,機械学習により様々なデータ活用が可能になった.一方,データの利用機会が増加することで,機械学習モデルからのデータ侵害について指摘されている.例えば電子メールの作成中に,入力候補を提示してくれるモデルについて考える.ユーザーが作成したメールの本文を用いて学習し,次に入力する候補を予測して生成する.このモデルでクレジットカードに関するテキストをユーザーが入力したとき,学習に用いられた誰かのクレジットカード番号が提示されてしまうことはデータ侵害である.本研究ではデータ侵害対策として,TensorFlow Privacyというライブラリで提供されている差分プライバシーを満たした最適化アルゴリズムであるDP-Adamを用いて,RNNによるテキスト生成タスクに取り組んだ.ここで個人情報に見立てたダミーデータの暴露を防ぐことができるかを実験した.結果,差分プライバシーを満たしたモデルではダミーデータ暴露の回避が確認できた.また過学習対策として用いられるL1正則化でもダミーデータの暴露が回避された.しかし,L1正則化モデルが生成したテキストには,存在しない単語が含まれていた.