728x90
반응형

https://www.chipstrat.com/p/gpu-networking-basics-part-1

이 자료는 대규모 AI 모델 학습을 위한 GPU 네트워킹의 기초 원리와 하드웨어 구조를 체계적으로 설명합니다. 수만 개의 GPU가 협업해야 하는 환경에서 발생하는 통신 병목 현상을 해결하기 위해, 텍스트는 스위치를 계층화한 리프-스파인 토폴로지와 같은 네트워크 설계 방식의 중요성을 강조합니다. 또한, 개별 서버 내부의 연산 능력을 높이는 수직적 확장(Scale-up)과 네트워크 장비를 늘리는 수평적 확장(Scale-out)의 차이점을 분석하며, 특히 노드 내부의 고속 통신과 외부 연결 간의 기술적 특성을 대조합니다. 궁극적으로 이 가이드는 복잡한 데이터 처리 과정인 올-리듀스(All-reduce) 통신을 효율화하여 전체적인 학습 시간을 단축하려는 시스템 엔지니어링의 핵심 목적을 독자에게 전달합니다.

 

 

저게 이더넷 케이블이 아니라고 하셨다면, 맞습니다! 

출처: 1.5m(5피트) NVIDIA/Mellanox MCP4Y10-N01A 호환 800G OSFP 핀형 상단 InfiniBand NDR 수동 직접 연결 구리 트윈액스 케이블(Quantum-2 스위치용)

 

https://www.researchgate.net/figure/The-Forward-Propagation-Process-of-Neural-Network_fig4_382298512

 

https://www.youtube.com/watch?v=wLW3UzUw5rY&t=452s

 

728x90
Posted by Mr. Slumber
,