Amazon Web Services(AWS)는 기초 모델(FM) 개발을 위해 복원력을 핵심으로 설계된 특수 목적 인프라인 Amazon SageMaker HyperPod에서 Amazon Elastic Kubernetes Service(EKS) 지원을 발표했습니다. 이 새로운 기능을 통해 고객은 EKS를 사용하여 HyperPod 클러스터를 오케스트레이션할 수 있으므로 대규모 모델 학습을 위해 설계된 Amazon SageMaker HyperPod의 복원력 있는 환경과 Kubernetes의 기능을 결합할 수 있습니다. Amazon SageMaker HyperPod는 1,000개가 넘는 인공 지능(AI) 가속기에서 효율적으로 확장하는 데 도움이 되므로 학습 시간을 최대 40% 단축할 수 있습니다.
특히 제 눈길을 끈 것은 이러한 통합을 통해 오늘날 많은 조직이 직면한 주요 과제인 대규모 기초 모델 학습을 어떻게 해결하는지였습니다. 학습 프로세스는 리소스를 많이 사용하고 시간이 오래 걸리는 경우가 많으므로 특수 인프라가 필요합니다. AWS는 Amazon EKS를 SageMaker HyperPod와 통합하여 Kubernetes의 유연성과 관리 기능을 제공하면서 학습 시간을 크게 단축할 수 있는 강력하고 확장 가능한 솔루션을 제공합니다.
이러한 통합의 주요 이점 중 하나는 복원력이 향상되었다는 것입니다. 심층 상태 확인, 자동 노드 복구 및 작업 자동 재개 기능을 통해 SageMaker HyperPod는 대규모 또는 장기 실행 작업의 중단 없는 학습을 보장합니다. Kubernetes 환경용으로 설계된 선택적 HyperPod CLI를 사용하면 작업 관리를 간소화할 수 있지만 고객은 자체 CLI 도구를 사용할 수도 있습니다. Amazon CloudWatch Container Insights와의 통합을 통해 고급 관찰 가능성이 제공되므로 클러스터 성능, 상태 및 사용량에 대한 더 깊은 인사이트를 얻을 수 있습니다.
또한 이러한 통합을 통해 리소스 활용에 더 큰 유연성을 얻을 수 있습니다. 데이터 과학자는 학습 및 추론 작업에서 컴퓨팅 용량을 효율적으로 공유할 수 있습니다. 기존 Amazon EKS 클러스터를 사용하거나 HyperPod 컴퓨팅에 새 클러스터를 만들어 연결하고 작업 제출, 큐 및 모니터링을 위한 자체 도구를 가져올 수 있습니다.
전반적으로 Amazon SageMaker HyperPod에서 Amazon EKS 지원은 기초 모델 개발의 큰 진전을 나타냅니다. AWS는 Kubernetes의 기능과 SageMaker HyperPod의 복원력 있는 환경을 결합하여 조직이 AI 노력을 가속화하는 데 도움이 되는 강력하고 효율적인 솔루션을 제공합니다.