728x90
반응형

https://cloud.google.com/blog/products/compute/tpu-8t-and-tpu-8i-technical-deep-dive?hl=en

이 자료는 구글의 8세대 AI 가속기인 TPU 8t와 TPU 8i의 기술적 구조와 설계 철학을 심도 있게 설명합니다. 구글은 AI 모델이 고도화됨에 따라 대규모 사전 학습에 최적화된 TPU 8t와 추론 및 실시간 서비스에 특화된 TPU 8i로 시스템을 이원화하여 효율성을 극대화했습니다. 특히 데이터 전송 병목 현상을 해결하기 위한 Arm 기반 Axion CPU의 통합과 새로운 네트워크 토폴로지인 Boardfly의 도입은 이전 세대 대비 압도적인 성능 향상과 에너지 효율을 제공합니다. 결론적으로 이 텍스트는 에이전틱 AI와 세계 모델의 등장이라는 새로운 흐름에 맞춰 구글이 하드웨어와 소프트웨어를 어떻게 혁신적으로 설계했는지 그 비전을 제시하고 있습니다.

 

https://blog.google/innovation-and-ai/infrastructure-and-cloud/google-cloud/eighth-generation-tpu-agentic-era/

구글의 8세대 텐서 프로세서 유닛인 TPU 8t와 TPU 8i는 복잡한 추론과 자율적 행동이 강조되는 에이전트 중심의 AI 시대에 대응하기 위해 맞춤형으로 설계되었습니다. 대규모 모델 학습에 특화된 TPU 8t는 연산 효율을 극대화하여 개발 주기를 단축하며, 추론 전용 칩인 TPU 8i는 지연 시간을 최소화함으로써 여러 에이전트가 협업하는 정교한 환경을 지원합니다. 이 혁신적인 하드웨어는 하이퍼컴퓨팅 인프라와 결합하여 에너지 효율성을 획기적으로 개선하고, 하드웨어와 소프트웨어를 유기적으로 연결하는 통합적 설계를 통해 차세대 AI 서비스의 성능 한계를 극복하고자 합니다. 결과적으로 이 소식은 구글이 고도화된 지능형 도구를 대규모로 운영할 수 있는 기술적 토대를 마련했음을 선포하며, 미래 지향적인 연산 환경의 청사진을 제시하고 있습니다.

 

AI 인프라 경쟁에서 소프트웨어의 구조적 역할, SPRi, 20260409
TPU 8t ASIC 블록 다이어그램

 

TPU 8i ASIC 블록 다이어그램
TPU 8t rack level connectivity to Virgo fabric
위쪽 다이어그램은 TPUDirect Storage를 사용하지 않은 데이터 전송 경로를 보여줍니다. 아래쪽 다이어그램은 TPUDirect Storage를 사용하여 두 개의 TPU 8t 칩 간에 TPU 8t 데이터를 전송하고, 관리형 10T Lustre 스토리지를 사용하는 경우를 보여줍니다.

 

TPU 8i의 계층적 Boardfly 토폴로지. 4개의 칩이 완전히 연결된 빌딩 블록에서 시작하여 8개의 보드가 완전히 연결된 그룹을 형성하고, 이러한 그룹 36개가 완전히 연결되어 TPU 8i 포드를 이룬다.

 

TPU 8i의 계층적 보드플라이 토폴로지는 완전히 연결된 4개의 칩으로 구성된 빌딩 블록에서 시작하여 8개의 보드로 구성된 완전히 연결된 그룹을 형성하고, 이러한 그룹 36개가 완전히 연결되어 TPU 8i 포드를 이룹니다.

 

 

 

728x90
Posted by Mr. Slumber
,