GKE, 수조 매개변수 AI 모델을 위해 65,000개 노드로 확장

2024-11-13

Google Cloud

Google Cloud는 Google Kubernetes Engine(GKE)이 이제 최대 65,000개의 노드를 지원하여 수조 개의 매개변수를 가진 거대한 AI 모델을 처리할 수 있다고 발표했습니다. 생성형 AI가 발전함에 따라 이러한 모델을 학습시키는 데 필요한 엄청난 컴퓨팅 성능에 대한 요구가 증가하고 있습니다. GKE는 이제 다른 두 개의 주요 퍼블릭 클라우드 제공업체보다 10배 이상 큰 규모를 제공하여 고객이 모델 학습 시간을 단축하거나 모델을 수조 개의 매개변수로 확장할 수 있도록 지원합니다. 이러한 확장을 통해 단일 클러스터에서 5개의 작업을 실행할 수 있으며, 각 작업은 LLM에 대한 Google Cloud의 이전 세계 기록 규모의 학습 작업과 일치합니다. AI 안전 및 연구 회사인 Anthropic과 같은 고객은 이러한 발전을 환영했습니다. 기술적으로 GKE는 오픈 소스 etcd(분산 키-값 저장소)에서 Google의 분산 데이터베이스인 Spanner를 기반으로 하는 새롭고 더 강력한 키-값 저장소로 전환하고 있습니다. 이러한 변화는 GKE 사용자에게 새로운 수준의 안정성을 제공하고 클러스터 작업의 지연 시간을 개선할 것입니다. 또한 Kubernetes 제어 영역을 관리하는 GKE 인프라의 대대적인 점검 덕분에 GKE는 이제 훨씬 더 빠르게 확장됩니다. Google Cloud는 또한 오픈 소스에 대한 약속을 유지하여 이러한 규모에 필요한 모든 최적화 및 개선 사항이 코어 오픈 소스 Kubernetes의 일부임을 보장합니다.

GKE, 수조 매개변수 AI 모델을 위해 65,000개 노드로 확장

Recommends