Google Cloud는 GPU를 사용하여 Cloud Run에 Meta Llama 3.2-1B-Instruct 모델을 배포하는 방법을 설명하는 블로그 게시물을 게시했습니다. 이 게시물에서는 오픈소스 대규모 언어 모델(LLM) 배포를 위해 Cloud Run GPU를 활용하는 방법에 대한 단계별 안내를 제공합니다. 또한 Text Generation Inference(TGI) Docker 이미지를 사용한 로컬 모델 테스트를 통해 개발 프로세스를 간소화하는 모범 사례도 다루어 문제 해결을 용이하게 하고 생산성을 높입니다. Cloud Run GPU를 사용하면 개발자는 Cloud Run의 CPU 및 메모리에서 선호하는 주문형 가용성과 손쉬운 확장성은 물론 NVIDIA GPU의 강력한 성능을 활용할 수 있습니다. 애플리케이션이 유휴 상태일 때 GPU 지원 인스턴스는 자동으로 0으로 축소되어 비용이 최적화됩니다. 이 게시물에서는 Cloud Storage FUSE를 사용하여 콜드 스타트를 개선하는 방법에 대한 팁도 제공합니다. Cloud Storage FUSE를 사용하면 개발자가 Google Cloud Storage 버킷을 파일 시스템으로 마운트할 수 있으므로 콜드 스타트 시간이 크게 단축됩니다.