Amazon은 Amazon S3 데이터 레이크와 Amazon Redshift 데이터 웨어하우스에서 데이터를 통합하는 기능인 Amazon SageMaker Lakehouse의 정식 출시를 발표했습니다. 이를 통해 단일 데이터 복사본에서 강력한 분석 및 인공 지능과 머신 러닝(AI/ML) 애플리케이션을 구축할 수 있습니다. SageMaker Lakehouse는 차세대 Amazon SageMaker의 일부로, 데이터, 분석 및 AI를 위한 통합 플랫폼입니다. 널리 채택된 AWS 머신 러닝 및 분석 기능을 통합하여 분석 및 AI를 위한 통합 경험을 제공합니다.
고객은 데이터를 통해 더 많은 것을 하고 싶어합니다. 분석 여정을 더 빠르게 진행하기 위해 적절한 스토리지와 데이터베이스를 선택하여 데이터를 저장하고 있습니다. 데이터는 데이터 레이크, 데이터 웨어하우스 및 다양한 애플리케이션에 분산되어 있어 데이터 사일로가 생성되어 액세스 및 활용이 어려워집니다. 이러한 단편화는 중복 데이터 복사 및 복잡한 데이터 파이프라인으로 이어져 조직의 비용이 증가합니다. 또한 고객은 특정 쿼리 엔진과 도구를 사용해야 하는데, 데이터가 저장되는 방식과 위치에 따라 옵션이 제한됩니다. 이러한 제약으로 인해 고객이 원하는 방식으로 데이터를 사용하기가 어려워집니다. 마지막으로, 일관되지 않은 데이터 액세스로 인해 고객이 정보에 입각한 비즈니스 의사 결정을 내리기가 어려워집니다.
SageMaker Lakehouse는 Amazon S3 데이터 레이크와 Amazon Redshift 데이터 웨어하우스에서 데이터를 통합하여 이러한 문제를 해결합니다. Apache Iceberg와 호환되는 모든 엔진 및 도구를 사용하여 데이터를 제자리에서 액세스하고 쿼리할 수 있는 유연성을 제공합니다. SageMaker Lakehouse를 사용하면 세분화된 권한을 중앙에서 정의하고 여러 AWS 서비스에 적용하여 데이터 공유 및 협업을 간소화할 수 있습니다. SageMaker Lakehouse로 데이터를 가져오는 것은 간단합니다. 기존 데이터 레이크 및 데이터 웨어하우스에서 데이터에 원활하게 액세스하는 것 외에도 Amazon Aurora, Amazon RDS for MySQL, Amazon DynamoDB와 같은 운영 데이터베이스와 Salesforce 및 SAP와 같은 애플리케이션에서 제로 ETL을 활용할 수 있습니다. SageMaker Lakehouse는 기존 환경에 적합합니다.
특히 SageMaker Lakehouse와 다른 AWS 서비스의 통합이 인상적이었습니다. 이러한 통합을 통해 데이터 관리 및 분석이 크게 간소화되어 훨씬 쉽고 효율적으로 이루어집니다. 분석 및 AI 기능을 개선하려는 기업에 이 서비스가 매우 유용할 것이라고 생각합니다.