728x90
반응형

인프라나 서비스의 시스템 장애를 복구하고, 컴퓨팅 리소스를 동적으로 확보하여 수요에 대응하거나, 구성 오류나 일시적 네트워크 문제와 같은 장애를 완화하는 워크로드의 기능이 포함

 

워크로드 안정성에 영향을 미치는 다른 요인

 

  • 운영 우수성: 변경 자동화, 장애 대응을 위한 플레이북 사용, 애플리케이션의 프로덕션 운영 준비 상태를 확인하는 Operational Readiness Reviews(운영 준비 검토)가 포함됩니다.
  • 보안: 악의적 행위자가 데이터 또는 인프라를 손상시켜 가용성에 영향을 주는 행위를 방지하는 조치가 포함됩니다. 예를 들어 백업을 암호화하여 데이터를 안전하게 보호합니다.
  • 성능 효율성: 요청 속도를 최대화하고 워크로드 지연 시간을 최소화하는 설계가 포함됩니다.
  • 비용 최적화: EC2 인스턴스에 대한 지출을 늘려 정적 안정성을 달성할지 추가 용량이 필요할 때 자동 크기 조정을 사용할지 여부와 같은 절충이 포함됩니다.

 

▲로블록스가 인프라를 더 효율적이고 복원력 있게 만드는 방식

 

  • 게임 회사 로블록스는 2021년 10월 시스템 전체가 중단되는 일이 있었음
  • 이 문제는 한 데이터 센터의 어느 한 컴포넌트의 이슈로 작게 시작함
  • 문제가 빠르게 확산해 시스템이 73시간 동안 중단됨
  • 그 이후로 로블록스는 극심한 트래픽 급증, 날씨, 하드웨어 고장, 소프트웨어 버그, 사람 실수와 같은 요인 때문에 모든 대규모 시스템에 일어나는 장애 유형에 인프라 복원력을 높이려 노력함
  • 로블록스는 ‘이러한 장애가 일어날 때, 우리는 단일 컴포넌트 또는 컴포넌트 그룹의 이슈가 전체 시스템에 확산하지 않도록 어떻게 할 수 있을까?’ 고민함
  • 이에 문제를 해결하려 노력을 기울였고 2023년 상반기에는 전년 같은 기간과 비교해 한 달에 1억2500만 참여 시간을 절약함

 

 

https://docs.aws.amazon.com/ko_kr/wellarchitected/latest/reliability-pillar/resiliency-and-the-components-of-reliability.html

 

복원력과 신뢰성의 구성 요소 - 안정성 원칙

이 페이지에 작업이 필요하다는 점을 알려 주셔서 감사합니다. 실망시켜 드려 죄송합니다. 잠깐 시간을 내어 설명서를 향상시킬 수 있는 방법에 대해 말씀해 주십시오.

docs.aws.amazon.com

 

 

https://blog.roblox.com/2023/12/making-robloxs-infrastructure-efficient-resilient/

 

How We’re Making Roblox’s Infrastructure More Efficient and Resilient - Roblox Blog

As Roblox has grown over the past 16+ years, so has the scale and complexity of the technical infrastructure that supports millions of immersive 3D co-experiences. The number of machines we support has more than tripled over the past two years, from approx

blog.roblox.com

 

728x90
Posted by Mr. Slumber
,