728x90
반응형
인프라나 서비스의 시스템 장애를 복구하고, 컴퓨팅 리소스를 동적으로 확보하여 수요에 대응하거나, 구성 오류나 일시적 네트워크 문제와 같은 장애를 완화하는 워크로드의 기능이 포함
워크로드 안정성에 영향을 미치는 다른 요인
- 운영 우수성: 변경 자동화, 장애 대응을 위한 플레이북 사용, 애플리케이션의 프로덕션 운영 준비 상태를 확인하는 Operational Readiness Reviews(운영 준비 검토)가 포함됩니다.
- 보안: 악의적 행위자가 데이터 또는 인프라를 손상시켜 가용성에 영향을 주는 행위를 방지하는 조치가 포함됩니다. 예를 들어 백업을 암호화하여 데이터를 안전하게 보호합니다.
- 성능 효율성: 요청 속도를 최대화하고 워크로드 지연 시간을 최소화하는 설계가 포함됩니다.
- 비용 최적화: EC2 인스턴스에 대한 지출을 늘려 정적 안정성을 달성할지 추가 용량이 필요할 때 자동 크기 조정을 사용할지 여부와 같은 절충이 포함됩니다.
▲로블록스가 인프라를 더 효율적이고 복원력 있게 만드는 방식
- 게임 회사 로블록스는 2021년 10월 시스템 전체가 중단되는 일이 있었음
- 이 문제는 한 데이터 센터의 어느 한 컴포넌트의 이슈로 작게 시작함
- 문제가 빠르게 확산해 시스템이 73시간 동안 중단됨
- 그 이후로 로블록스는 극심한 트래픽 급증, 날씨, 하드웨어 고장, 소프트웨어 버그, 사람 실수와 같은 요인 때문에 모든 대규모 시스템에 일어나는 장애 유형에 인프라 복원력을 높이려 노력함
- 로블록스는 ‘이러한 장애가 일어날 때, 우리는 단일 컴포넌트 또는 컴포넌트 그룹의 이슈가 전체 시스템에 확산하지 않도록 어떻게 할 수 있을까?’ 고민함
- 이에 문제를 해결하려 노력을 기울였고 2023년 상반기에는 전년 같은 기간과 비교해 한 달에 1억2500만 참여 시간을 절약함
https://blog.roblox.com/2023/12/making-robloxs-infrastructure-efficient-resilient/
728x90
'06.CAOS' 카테고리의 다른 글
클라우드 컴퓨팅 - 인프라 성능관리 - Scale-Up / Scale-Out - 오토 스케일링 (Auto Scaling) (0) | 2024.02.02 |
---|---|
반도체 - 메모리 I/O - DMA (Direct Memory Access) (0) | 2024.02.02 |
양자 - 양자 과학 (0) | 2024.01.26 |
반도체 - 메모리 - DPU(Data Processing Unit) (0) | 2024.01.25 |
반도체 - 메모리 - CAM (Content-Addressable Memory) (0) | 2024.01.25 |