抄録
クラウドセキュリティ監査を生成AI のLLM(Large Language Model,大規模言語モデル)に任せられるかをテーマとした.監査不適合が正解であるパターンで失敗が多いのではないかとの仮説の下, ChatGPT サービスのGPT-4 を用いた実験で監査性能を評価した.併せて根拠の評価,失敗事例の分析,追加プロンプトによる正解率の向上を確認した.結果,やはり監査不適合が正解であるパターンで正しい回答を導けないケースが多かったが,全体としてはクラウドセキュリティ監査を補助することは可能と考える.具体的な監査性能は,正解率68.8%,適合率100%,再現率37.5%,特異率100%であった(監査不適合を正例とする.).傾向としては想定通り監査不適合を見抜く力が低く,傾向拡大解釈や推測などをして,ポジティブに監査適合と判断する傾向にあった.前述の監査性能は心元ない数字だが,重ねての質問で,正解率90.6%,再現率は81.3%まで上昇したため,補助能力ありと考える.