Google Cloud는 BigQuery와 Document AI의 Layout Parser 통합을 발표했습니다. 이를 통해 개발자는 강력한 RAG 파이프라인을 더 쉽게 구축할 수 있습니다. ML.PROCESS_DOCUMENT 및 기타 BigQuery 머신러닝 함수를 활용하여 문서 전처리, 임베딩 생성 및 의미 검색을 모두 BigQuery 내에서 SQL을 사용하여 수행할 수 있습니다. 이 통합은 재무제표와 같은 복잡한 문서를 구문 분석하는 RAG 파이프라인의 주요 과제를 해결하므로 특히 흥미롭습니다. 문서를 의미적으로 관련된 더 작은 단위로 분할함으로써 Layout Parser는 검색된 정보의 관련성을 개선하여 대규모 언어 모델(LLM)에서 더 정확한 답변을 얻을 수 있습니다. 또한 문서 소스, 청크 위치 및 구조적 정보와 같은 메타데이터를 청크와 함께 생성할 수 있으므로 RAG 파이프라인이 향상되어 검색 결과를 필터링하고 구체화하며 코드를 디버깅할 수 있습니다. RAG 파이프라인에서 복잡한 문서 처리 문제를 해결하는 것은 RAG 기술을 더욱 액세스하기 쉽고 확장 가능하게 만드는 큰 단계입니다.