ISO27017 に基づくクラウドセキュリティ監査業務に対する LLM の性能評価
ソフトウェア品質管理研究会 研究コース5「人工知能とソフトウェア品質」(2023年)
執筆者:
多田 麻沙子(TIS 株式会社)主査:
石川 冬樹
クラウドセキュリティ監査を生成 AI の LLM(Large Language Model,大規模言語モデル)に任せられるかをテーマとした.不適合が正解であるパターンで失敗が多いのではないかとの仮説の下,ChatGPT (GPT4) を用いた実験で監査性能を評価した.併せて根拠の評価,失敗事例の分析,追加プロンプトによる正解率の向上を確認した.結果,やはり不適合が正解であるパターンでの正しい回答を導けないケースが多かったが,全体としてはクラウドセキュリティ監査を補助することは可能と考える.具体的な監査性能は,正解率 68.8%,適合率 37.5%,再現率 100%,特異率 100%であった.(不適合を正例とする.)傾向としては想定通り不適合を見抜く力が低く,傾向拡大解釈や推測などをして,ポジティブに適合と判断する傾向にあった.前述の監査性能は心元ない数字だが,重ねての質問で,正解率 90.6%,適合率は 81.3%まで上昇したため,補助能力ありと考える.