繰り返しのテストを要する生成AIテストの効率化 - 類似度算出と同義文判定による検証コスト削減の検討 -
ソフトウェア品質管理研究会 研究コース5(2024年)
近年,システム開発ではチャットボットなどで生成AI(Generative AI)による文章生成機能が利用されている.生成AIによって自動生成される回答について,その膨大なテキストデータ量と多義性,確率性によって従来のソフトウェアテストによる品質評価が容易ではない.この課題に対して我々は,類似度をテストでの品質評価に用いることを検討した.本研究では,その評価として埋め込み表現のコサイン類似度での評価と生成AIによる類似度評価について数値化し,実験と結果考察を行った.実験の結果,生成AIによる類似度評価は,長文化によるスコア増加の課題などはあるものの人間の直感的理解をサポートしつつ,実務にて利用できる一定の可能性があることが示された.