https://www.jasonschips.ai/p/optical-circuit-switching-101-better
2026.6.20
[광회로 스위칭 101: CPO보다 나은가?]
이 자료는 데이터 센터 내에서 광 회로 스위칭(OCS) 기술이 기존의 전자 패킷 스위치(EPS)를 대체하며 차세대 표준으로 부상하는 과정을 분석한 기술 가이드입니다. OCS는 신호를 전기적으로 변환하지 않고 거울을 통해 빛을 직접 반사하는 물리적 방식을 사용하기 때문에, 전력 소모와 지연 시간을 획기적으로 줄이는 대신 신호 손실과 물리적 재설정 시간이라는 기술적 과제를 안고 있습니다. 핵심 테마는 인공지능(AI)의 부상으로 인해 거대한 데이터 뭉치가 오랫동안 흐르는 엘리먼트 플로우가 주류가 됨으로써, OCS의 단점은 상쇄되고 장점은 극대화되고 있다는 점입니다. 결국 이 텍스트는 AI 시장의 팽창과 기술 채택률, 그리고 칩당 포트 수인 어태치 레이트라는 세 가지 축을 바탕으로 OCS 시장의 기하급수적 성장 가능성을 강조하고 있습니다.


데이터 센터는 계층적 패턴으로 구성되어야 합니다. 그렇지 않으면 모든 GPU가 다른 모든 GPU와 통신해야 하므로 링크 확장이 O(n^2)이 되어 데이터 센터 전체가 전선으로 매우 빠르게 가득 차게 되는데, 이는 일반적으로 바람직하지 않은 것으로 간주됩니다.
이 네트워크를 구성하려면 트래픽을 라우팅해야 하며, 트래픽을 라우팅하는 것은 스위치입니다.


신호가 송수신기를 통해 스위칭 시스템을 빠져나갈 때 어떤 일이 일어나는지 생각해 보세요. 신호는 수신된 후 다시 전송되므로 반대편에서 나오는 신호는 새로운 광선입니다. 반면 OCS에서는 빛이 거울에 반사되어 신호가 약간 손실되고 다시 증폭되지 않습니다.
게다가 직관적으로 생각해 보면, 빛은 스위치에 멈추지 않고 직항으로 이동하기 때문에 두 배의 거리를 이동해야 합니다. 경유지 없이 바로 가는 것과 같은 이치입니다.
결과적으로 신호는 더 큰 삽입 손실을 겪게 되며, 이는 신호가 최종 목적지에 도달할 때 훨씬 더 심하게 손상됨을 의미합니다. 구체적으로, (EPS 설정에서) 거리로 인한 삽입 손실이 x이고 스위칭 손실이 y인 경우, 전체 OCS 삽입 손실은 2x + y가 됩니다.


구글 TPU 슈퍼포드 OCS
구글의 아키텍처는 특이하다.
Nvidia(NVL72)는 매우 간단하고 직관적이며 이해하기 쉽습니다. 72개의 GPU로 구성된 각 랙은 자체적인 스케일업 도메인(하나의 컴퓨팅 및 메모리 "단위")을 형성합니다. 스케일아웃 패브릭은 트랜시버, 리프 스위치 및 스파인 스위치를 통해 이러한 랙들을 서로 연결합니다.
구글의 칩 간 상호 연결(ICI)은 확장형 네트워크이지만, NVL72와 달리 단일 랙 형태가 아닙니다. 대신, 하나의 거대한 메모리 도메인을 공유하는 9,216개의 TPU가 뒤섞인 구조이며, 각 랙은 64개의 TPU로 구성된 4x4x4 정육면체 형태의 "랙"으로 연결되어 있습니다(정육면체 내부에는 구리 칩이 있고, 트랜시버가 정육면체들을 서로 연결합니다). 이러한 특징 때문에 슈퍼포드라고 불립니다.

이 캡슐은 3D 토러스 모양, 즉 거대한 감자칩 도넛처럼 생겼습니다.
각 슈퍼 포드에는 48개의 OCS가 있습니다. 따라서 포트 대 TPU 비율은 1.5:1로 고정되어 있습니다. 즉, OCS는 TPU 출하량에 따라 확장됩니다.

3D 토러스는 훈련에서 흔히 볼 수 있는 모든 요소가 축소된 통신 패턴을 위해 설계되었습니다. 각 칩은 주로 가장 가까운 이웃 칩과 통신하며, 그 결과는 마치 중학생들이 쪽지를 주고받아 모두가 읽는 것처럼 네트워크를 통해 퍼져나갑니다.
하지만 전문가 혼합 모델(MoE)의 추론에서는 통신 패턴이 전체 대 전체(all-to-all)로 바뀝니다. 모든 토큰은 포드 내 어디에든 흩어져 있는 칩에 저장된 각각의 전문가에게 전송됩니다.

차원이 증가할 때마다 TPU당 OCS 포트 수도 수학적으로 증가합니다.

시간이 좀 걸릴 겁니다. 2027년에 당장 실현될 것 같지는 않아요. 4D 토러스 관련 특허는 출원됐지만, 구글은 TPU v8에서 3D 토러스를 고수하고 있습니다. 아마도 TPU 스케일업과 비슷한 시기인 2029년에서 2030년 이후에나 가능할 것 같습니다. 하지만 중기적으로는 접착률을 두 배(4D 토러스의 3:1)로, 장기적으로는 5배 이상(10:1 비율)까지 높일 수 있는 잠재력이 있습니다.
OCS의 유형
앞서 논의했듯이 광학 미러 박스의 두 가지 주요 단점은 연결 방향 전환 속도와 삽입 손실입니다. 이 두 가지 단점은 또한 다양한 유형의 OCS(광학 제어 시스템) 간의 주요 절충점이 됩니다.
이 섹션에서는 오늘날 데이터 센터 구축에 가장 적합한 두 가지 유형인 액정 및 MEMS OCS에 대해 설명합니다. 압전 및 Sipho OCS는 나중에 다룰 예정이며, 그 이유는 곧 알게 되실 것입니다.
MEMS와 액정의 차이점을 가장 간단하게 이해하려면, MEMS는 빛을 반사하는 방식(거울)을 사용하는 반면, 액정은 빛을 매질(매질)을 통해 통과시키는 방식이라고 생각하면 됩니다. 모든 사양 차이는 바로 이 차이에서 비롯됩니다.
















'12. 메일진 > 8. AI 반도체' 카테고리의 다른 글
| AI 반도체 - 산업정책기술 주간동향 64호 (0) | 2026.06.21 |
|---|---|
| AI 반도체 - 산업정책기술 주간동향 63호 (0) | 2026.06.21 |
| AI 데이터센터 - AI 서버 전력 안정성을 위한 MLCC와 실리콘 커패시터 (0) | 2026.06.20 |
| AI 반도체 - 메모리 - HBM에 대한 심층 분석 (0) | 2026.06.19 |
| AI 메모리 - COMPUTEX 2026 이후 AI 추론 시대 메모리 혁명 (0) | 2026.06.18 |


