Google Cloud는 비용을 절감하고 효율성을 높이기 위해 로드 밸런싱을 통해 맞춤형 소스 읽기를 가능하게 하는 Dataflow의 새로운 기능을 발표했습니다. 이는 특히 대기 시간이 엄격하게 모니터링되는 스트리밍 환경에서 워크로드 확장이라는 과제에 대한 반가운 솔루션입니다.

최신 자동 조정 전략은 처리 병목 현상을 일으키고 백로그를 생성하는 핫 키 또는 핫 작업자를 처리하는 데 어려움을 겪고 있으며 데이터의 최신성에 영향을 미치고 있습니다. 예를 들어 Apache Kafka와 같은 스트리밍 환경에서는 파이프라인에 핫스팟이 발생할 수 있습니다. 자동 확장기는 사후에 추가 컴퓨팅 단위로 이를 만회하려고 시도할 수 있지만 비용이 많이 들 뿐만 아니라 속도도 느립니다. 자동 확장기는 누적된 메시지의 백로그가 발생한 후에야 반응하며 새 작업자를 스핀업할 때 오버헤드가 발생합니다.

새로운 로드 밸런싱 기능은 워크로드를 보다 효율적으로 분산하고 과부하된 작업자를 사전에 완화하여 작동합니다. 이를 통해 파이프라인은 더 적은 리소스와 더 낮은 대기 시간으로 더 많은 데이터를 푸시할 수 있습니다. Dataflow 주요 고객의 실제 사용 사례는 운영 비용을 절감하고 파이프라인 성능을 향상하는 데 이 기능이 얼마나 효과적인지 보여줍니다.

예를 들어 한 고객은 작업자 확장 이벤트를 75% 줄일 수 있었고 그 결과 Google Compute Engine에서 일일 비용이 64% 감소했으며 백로그는 약 1분에서 약 10초로 단축되었습니다.

이 로드 밸런싱 기능은 모든 리전의 모든 Dataflow 고객에게 기본적으로 사용 설정되어 있으므로 추가 구성 없이 바로 사용할 수 있습니다.

결론적으로 Dataflow에 로드 밸런싱을 통한 맞춤형 소스 읽기가 도입됨으로써 파이프라인 효율성을 개선하고 비용을 절감하는 중요한 진전을 이루었으며, 특히 속도와 효율성이 무엇보다 중요한 스트리밍 환경에서 중요합니다.