Google Cloud는 "GPU 비용 절감: GKE 추론 워크로드를 위한 더 스마트한 자동 확장"이라는 블로그 게시물을 게시했습니다. 이 게시물에서는 최신 개방형 모델과 인프라를 사용하는 경우에도 LLM 모델 추론 워크로드를 실행하는 데 비용이 많이 들 수 있다고 설명합니다.

제안된 솔루션 중 하나는 자동 확장으로, 필요한 AI 가속기 비용만 지불하면서 고객 수요를 충족하여 비용을 최적화하는 데 도움이 됩니다.

이 게시물에서는 적절한 메트릭을 선택하는 데 중점을 두고 GKE에서 추론 워크로드에 대한 자동 확장을 설정하는 방법에 대한 지침을 제공합니다.

GPU 사용률, 배치 크기, 대기열 크기 등 GPU에서 자동 확장을 위한 다양한 메트릭을 비교하는 것이 특히 흥미로웠습니다.

GPU 사용률은 과도한 프로비저닝으로 이어질 수 있으므로 LLM 워크로드를 자동 확장하는 데 효과적인 메트릭이 아님을 알게 되었습니다. 반면에 배치 크기와 대기열 크기는 추론 서버가 처리하는 트래픽 양을 직접적으로 나타내므로 더 효과적인 메트릭입니다.

전반적으로 이 게시물은 GKE에서 LLM 추론 워크로드의 비용 성능을 최적화하는 방법에 대한 유용한 개요를 제공합니다. GKE에서 LLM 추론 워크로드를 배포하려는 모든 사용자에게 이 게시물을 읽어보시기 바랍니다.