728x90
반응형
https://openai.com/index/mrc-supercomputer-networking/
https://cdn.openai.com/pdf/resilient-ai-supercomputer-networking-using-mrc-and-srv6.pdf
https://www.opencompute.org/documents/ocp-mrc-1-0-pdf
OpenAI는 AMD, Broadcom, Intel, Microsoft, NVIDIA와 공동 개발하고 Open Compute Project( OpenAI )를 통해 공개한 새로운 RDMA 전송 프로토콜인 MRC(Multipath Reliable Connection) 의 설계도를 발표했습니다 . MRC는 800Gb/s NIC에 내장되어 있으며, 최대 대역폭이 아닌 장애 발생 시의 지연 시간을 최소화하는 데 중점을 둡니다.
MRC는 단일 전송을 수백 개의 경로에 분산시키는 방식("패킷 스프레이")을 사용하여 흐름을 하나의 경로에 고정하지 않고, 10만 개 이상의 GPU 확장을 위해 멀티플레인 Clos 토폴로지와 결합하며, SRv6를 통해 동적 라우팅을 정적 소스 라우팅으로 대체합니다. 즉, 패브릭이 아닌 전송 계층이 복원력을 담당합니다. MRC는 이미 OpenAI의 최대 규모 Microsoft 학습 클러스터에서 운영 중이며, 텍사스주 아빌린에 있는 Oracle Cloud Infrastructure의 Stargate 클러스터의 네트워킹 기반이 되고 있습니다.






































728x90
'07.AI' 카테고리의 다른 글
| 생성형 AI - 상호작용 모델(Interaction Models) (0) | 2026.05.16 |
|---|---|
| LLM - 성능 - OpenAI, 고블린 데이터 오염 (0) | 2026.05.12 |
| LLM - 성능 - 벤치마크 - Perplexity AI, Opik 멀티모달 대형 언어 모델(MLLM) 개발자 가이드 (0) | 2026.05.12 |
| LLM - 성능 - 지식 증류(Knowledge Distillation) - 증류 공황 (0) | 2026.05.10 |
| LLM - 성능 - 최적화 - 양자화(Quantization) (0) | 2026.05.10 |


