728x90
반응형

https://openai.com/index/mrc-supercomputer-networking/

https://cdn.openai.com/pdf/resilient-ai-supercomputer-networking-using-mrc-and-srv6.pdf

https://www.opencompute.org/documents/ocp-mrc-1-0-pdf

OpenAI는 AMD, Broadcom, Intel, Microsoft, NVIDIA와 공동 개발하고 Open Compute Project( OpenAI )를 통해 공개한 새로운 RDMA 전송 프로토콜인 MRC(Multipath Reliable Connection) 의 설계도를 발표했습니다 . MRC는 800Gb/s NIC에 내장되어 있으며, 최대 대역폭이 아닌 장애 발생 시의 지연 시간을 최소화하는 데 중점을 둡니다.
MRC는 단일 전송을 수백 개의 경로에 분산시키는 방식("패킷 스프레이")을 사용하여 흐름을 하나의 경로에 고정하지 않고, 10만 개 이상의 GPU 확장을 위해 멀티플레인 Clos 토폴로지와 결합하며, SRv6를 통해 동적 라우팅을 정적 소스 라우팅으로 대체합니다. 즉, 패브릭이 아닌 전송 계층이 복원력을 담당합니다. MRC는 이미 OpenAI의 최대 규모 Microsoft 학습 클러스터에서 운영 중이며, 텍사스주 아빌린에 있는 Oracle Cloud Infrastructure의 Stargate 클러스터의 네트워킹 기반이 되고 있습니다.

 

 

 

 

 

 

 

728x90
Posted by Mr. Slumber
,