Google Cloud는 대규모 언어 모델(LLM)을 사용할 때 발생할 수 있는 429 "리소스 고갈" 오류를 처리하는 방법에 대한 가이드를 게시했습니다. LLM은 상당한 컴퓨팅 리소스가 필요하므로 원활한 사용자 환경을 위해서는 리소스 소비를 관리하는 것이 중요합니다. 이 가이드에서는 다음 세 가지 주요 전략을 제시합니다.

1. **백오프 및 재시도:** 리소스 고갈 또는 API를 사용할 수 없는 경우를 처리하기 위해 지수 백오프 및 재시도 로직을 구현합니다. 과부하 시스템이 복구될 때까지 재시도할 때마다 대기 시간이 기하급수적으로 증가합니다.

2. **동적 공유 할당량:** Google Cloud는 요청하는 사용자 간에 사용 가능한 용량을 동적으로 분산하여 특정 모델에 대한 리소스 할당을 관리합니다. 이렇게 하면 효율성이 향상되고 지연 시간이 단축됩니다.

3. **프로비저닝된 처리량:** 이 서비스를 사용하면 Vertex AI에서 생성 AI 모델 전용 용량을 예약할 수 있으므로 최대 수요 시에도 예측 가능한 성능을 보장할 수 있습니다.

이 가이드에서는 요청량과 토큰 크기가 커짐에 따라 백오프 및 재시도 메커니즘을 동적 공유 할당량과 결합하는 것이 특히 중요하다고 강조합니다. LLM 애플리케이션 복원력을 위해 소비자 할당량 재정의 및 프로비저닝된 처리량과 같은 다른 옵션도 언급되어 있습니다. GitHub의 Vertex AI 샘플을 사용하거나 Google Cloud의 초보자 가이드, 빠른 시작 또는 시작 팩을 활용하여 생성 AI로 빌드하는 것이 좋습니다.