728x90
반응형

(개념) 현대 클라우드·분산 시스템에서 장애를 일부러 발생시켜 시스템의 대응 능력을 검증하고 개선하는 방법론

 

https://arxiv.org/pdf/2511.07865

이 논문은 대규모 언어 모델(LLM)을 활용하여 분산 시스템의 복원력을 높이는 카오스 엔지니어링(Chaos Engineering)의 전 과정을 자동화하는 혁신적인 시스템인 'ChaosEater'를 제안합니다. 기존의 방식은 실험 실행 정도만 자동화되었을 뿐 가설 설정이나 시스템 개선과 같은 핵심 단계에서 전문가의 수동 개입이 필수적이었으나, 본 연구는 이를 에이전트 중심의 워크플로우로 구축하여 인적 비용을 획기적으로 절감했습니다. 특히 쿠버네티스 환경을 대상으로 하여 가설 정의, 실험 계획, 데이터 분석 및 코드 수정에 이르는 순환 구조를 LLM 에이전트들이 스스로 완수하도록 설계되었습니다. 사례 연구 결과, ChaosEater는 매우 적은 시간과 비용으로도 숙련된 엔지니어에 준하는 수준의 시스템 개선 결과물을 내놓으며 자율적인 소프트웨어 복원력 확보의 실현 가능성을 입증했습니다.

 

https://journals.stecab.com/index.php/jcsp/article/view/846/393

이 논문은 고도화된 AI 모델 개발을 위해 필수적이지만 확보하기 어려운 특수 분야의 학습 데이터를 생성하는 새로운 프레임워크인 Simula를 소개합니다. 저자들은 기존의 합성 데이터 생성 방식이 가졌던 확장성과 통제력의 한계를 극복하기 위해, 사전 지식(seed) 없이도 작동하는 에이전트 기반의 추론 방식을 핵심 전략으로 제안합니다. Simula는 대상 영역의 개념을 체계적인 계층 구조(Taxonomy)로 먼저 설계한 뒤, 이를 바탕으로 데이터의 다양성, 복잡성, 품질을 정밀하게 조절하며 생성하는 3단계 파이프라인을 갖추고 있습니다. 결과적으로 이 기술은 데이터가 부족하거나 개인정보 보호가 중요한 도메인에서 설명 가능하고 고품질인 합성 데이터를 대규모로 구축하여 AI 모델의 성능을 효과적으로 높이는 데 목적이 있습니다.

 

https://www.researchgate.net/publication/395481792_The_Role_of_Chaos_Engineering_in_Enhancing_System_Resilience_and_Reliability_in_Modern_Distributed_Architectures

이 연구 논문은 현대의 복잡한 분산 시스템이 가진 취약성을 극복하기 위해 제안된 카오스 엔지니어링(Chaos Engineering)의 핵심 원리와 실질적인 효과를 탐구합니다. 저자들은 마이크로서비스 아키텍처에서 발생하는 예측 불가능한 연쇄 장애를 해결하기 위해 의도적으로 결함을 주입하는 선제적 탄력성 확보 전략의 중요성을 강조합니다. 넷플릭스와 아마존 같은 선도 기업의 사례 연구를 통해 이 방법론이 평균 복구 시간(MTTR)을 대폭 단축하고 시스템의 신뢰도를 높이는 데 기여했음을 증명합니다. 결과적으로 본문은 기술적 개선을 넘어 조직 전반이 장애를 당연한 것으로 수용하고 대비하는 예방적 신뢰성 문화로 전환해야 한다고 제안합니다.

 

https://arxiv.org/pdf/2602.06223

이 논문은 Uber가 개발한 AI 기반 모바일 카오스 테스팅 시스템을 소개하며, 대규모 분산 환경에서 발생하는 백엔드 서비스의 장애가 사용자 경험에 미치는 영향을 혁신적으로 검증하는 방법을 다룹니다. 기존의 테스트 방식은 수많은 도시와 서비스 장애 시나리오가 결합될 때 발생하는 조합의 폭발 문제로 인해 확장이 불가능했으나, 본 시스템은 LLM 기반의 자동화 플랫폼인 DragonCrawl과 결함 주입 시스템인 uHavoc을 결합하여 수동 스크립트 없이도 복잡한 앱 화면을 지능적으로 탐색합니다. 2024년 1분기 이후 18만 회 이상의 테스트를 통해 비정상적인 아키텍처 의존성 등 23개의 중대한 회복탄력성 위험을 발견했으며, 이는 약 39,000시간의 수동 테스트 노력을 절감하는 성과를 거두었습니다. 특히 자동화된 근본 원인 분석(RCA) 기술을 도입하여 장애의 원인이 되는 백엔드 서비스를 신속하게 특정함으로써, 복잡한 마이크로서비스 생태계에서도 고도의 모바일 서비스 안정성을 유지할 수 있음을 증명하고 있습니다.

 

https://arxiv.org/pdf/2511.07865

 

Chaos Engineering 2.0, Journal of Computer, Software, and Program (JCSP), 2(2), 10-24, 2025
Chaos Engineering 2.0, Journal of Computer, Software, and Program (JCSP), 2(2), 10-24, 2025
Scaling Mobile Chaos Testing with AI-Driven Test Execution, https://arxiv.org/pdf/2602.06223

 

728x90
Posted by Mr. Slumber
,