大規模ミッションクリティカルシステムにおけるトラブル再発防止管理事例 ~トラブル多発時の包括分析手法の提案と適用事例紹介~
ソフトウェア品質シンポジウム2023(2023年)
執筆者:
掛川 悠 ((株)NTTデータ)
社会のデジタル化に伴い、それを支えるインフラシステムはますます重要性を増しており、多様なサービスを高い品質を維持しながら提供し続けることが求められている。一方で、そうしたシステムの開発・維持を担うプロジェクト運営には様々なトラブルがつきまとう。従って、システムを長期にわたり安定運用するためには、トラブルに対して適切に再発防止策を立案・実行し、自律的に品質改善する仕組みが求められる。
ところが、トラブルの再発防止に必要な分析は機械化が難しく、泥臭い上に意外と難しい。とりわけ、大規模ミッションクリティカルシステムでは、以下の点においてその傾向が顕著になる。
多数の要員を抱え、また要員入れ替えも頻発するため、分析のノウハウや運用を持続可能なプロセスとして整備しない限り一定レベルの質を保った分析の徹底は難しい。
多数のグループが相互に連携しながら多数の開発案件、維持管理業務を遂行する中で、異なるグループ/案件で発生した商用トラブルに対して共通要因を見出すのが難しい。
実際、社会的なインフラシステムのトラブルは昨今でもなくなっておらず、その意味でトラブルの再発防止は古くて新しい課題といえる。
そこで、本稿では大規模ミッションクリティカルシステムの20年にわたる開発・維持で培われたトラブルの再発防止ノウハウを整理し、特に難しいトラブル多発時の原因分析に焦点をあてた。
ところが、トラブルの再発防止に必要な分析は機械化が難しく、泥臭い上に意外と難しい。とりわけ、大規模ミッションクリティカルシステムでは、以下の点においてその傾向が顕著になる。
多数の要員を抱え、また要員入れ替えも頻発するため、分析のノウハウや運用を持続可能なプロセスとして整備しない限り一定レベルの質を保った分析の徹底は難しい。
多数のグループが相互に連携しながら多数の開発案件、維持管理業務を遂行する中で、異なるグループ/案件で発生した商用トラブルに対して共通要因を見出すのが難しい。
実際、社会的なインフラシステムのトラブルは昨今でもなくなっておらず、その意味でトラブルの再発防止は古くて新しい課題といえる。
そこで、本稿では大規模ミッションクリティカルシステムの20年にわたる開発・維持で培われたトラブルの再発防止ノウハウを整理し、特に難しいトラブル多発時の原因分析に焦点をあてた。