Google Cloud는 Vertex AI에 "text-embedding-004" 및 "text-multilingual-embedding-002"라는 새로운 텍스트 임베딩 모델을 발표했습니다. 이러한 모델은 "작업 유형"에 따라 최적화된 임베딩을 생성할 수 있습니다. Retrieval Augmented Generation(RAG) 애플리케이션에 있어 중요한 개발입니다.
기존의 의미론적 유사성 검색은 RAG에서 정확한 결과를 반환하는 데 어려움을 겪는 경우가 많았습니다. 질문과 답변은 본질적으로 다르기 때문입니다. 예를 들어 "하늘은 왜 파란가요?"라는 질문과 "태양광의 산란으로 인해 파란색이 나타납니다"라는 답변은 서로 다른 의미를 지닙니다.
"작업 유형"은 모델이 쿼리와 해당 답변 간의 관계를 이해할 수 있도록 하여 이러한 차이를 해소합니다. 쿼리 텍스트에 "QUESTION_ANSWERING"을, 답변 텍스트에 "RETRIEVAL_DOCUMENT"를 지정하면 모델은 임베딩 공간에서 임베딩을 서로 가까이 배치할 수 있으므로 더 정확한 검색 결과를 얻을 수 있습니다.
이러한 새로운 모델은 "LLM 증류"를 활용합니다. LLM 증류는 대규모 언어 모델(LLM)에서 더 작은 모델을 학습시키는 프로세스입니다. 이를 통해 임베딩 모델은 LLM의 추론 기능 중 일부를 상속받아 지연 시간과 비용을 줄이면서 검색 품질을 향상시킬 수 있습니다.
결론적으로 Vertex AI Embeddings의 "작업 유형"은 RAG 시스템의 정확성과 효율성을 개선하는 데 중요한 단계입니다. 의미론적 검색을 간소화함으로써 이 기능을 통해 개발자는 더 지능적이고 언어를 인식하는 애플리케이션을 빌드할 수 있습니다.