Amazon Bedrock는 생성 AI 애플리케이션 테스트 및 개선을 간소화하는 새로운 RAG 평가 및 LLM 심사 기능을 발표했습니다. Amazon Bedrock Knowledge Bases는 이제 RAG 평가를 지원하여 Retrieval Augmented Generation(RAG) 애플리케이션을 평가 및 최적화하기 위한 자동 지식 기반 평가를 실행할 수 있습니다. 이는 평가 메트릭을 계산하기 위해 대규모 언어 모델(LLM)을 사용하여 다양한 구성을 비교하고 최적의 결과를 위해 조정할 수 있도록 합니다. Amazon Bedrock 모델 평가에는 이제 LLM 심사가 포함되어 적은 비용과 시간으로 다른 모델을 사람과 같은 품질로 테스트 및 평가할 수 있습니다. 이러한 기능은 AI 애플리케이션에 대한 빠르고 자동화된 평가를 제공하여 피드백 루프를 단축하고 개선 속도를 높입니다. 평가에서는 정확성, 유용성, 답변 거부 및 유해성과 같은 책임감 있는 AI 기준 등 여러 품질 차원을 평가합니다. 결과는 각 점수에 대한 자연어 설명을 제공하며, 해석하기 쉽도록 0에서 1까지 정규화됩니다. 투명성을 위해 루브릭과 심사 프롬프트가 문서에 게시됩니다.