Google Cloud는 학습 및 추론 성능을 개선하고, 대규모 복원력을 향상하고, AI Hypercomputer 리소스를 위한 중앙 집중식 허브를 제공하는 데 중점을 둔 AI Hypercomputer 소프트웨어 계층에 대한 중요 업데이트를 발표했습니다.

주요 업데이트 중 하나는 A3 메가 VM에서 MaxText를 지원한다는 것입니다. 이를 통해 대규모 언어 모델(LLM)을 더 빠르고 효율적으로 학습시킬 수 있습니다. NVIDIA H100 Tensor Core GPU로 구동되는 이러한 VM은 A3 VM에 비해 GPU 간 네트워크 대역폭이 2배 향상되었습니다.

또한 Google Cloud는 Cloud TPU v5p에 SparseCore를 도입했습니다. 이는 임베딩 작업을 위한 하드웨어 가속을 제공하여 추천 시스템의 성능을 향상합니다.

LLM 추론을 개선하기 위해 Google Cloud는 JetStream에 KV 캐시 양자화 및 Ragged Attention 커널도 도입하여 Cloud TPU v5e에서 추론 성능을 최대 2배 향상했습니다.

이러한 업데이트를 통해 Google Cloud는 성능과 비용 효율성이 뛰어난 인프라를 제공하여 조직이 AI 여정을 가속화할 수 있도록 계속 지원합니다. 최적화된 하드웨어 및 소프트웨어와 포괄적인 리소스에 중점을 둔 AI Hypercomputer는 AI의 힘을 활용하려는 기업에게 매력적인 솔루션입니다.