2024년 10월 13일

오늘 살펴볼 논문은 RAG Cahe라는 논문이다. KV Cache는 토큰을 하나씩 생성하면서 이전 생성 단계에서 연산했던 Key와 Value를 Cache에 저장하여 중복 연산을 방지함으로써 실행 시간을 크게 개선할 수 있었다. RAG Cache는 이러한 Cache 기법을 RAG(Retrieval Augmented Generation) 시스템의 관점에서 적용한 방법이다. 그림 1. RAG의 실행 과정 RAG에서는 Retrieval 과정을 더 읽기