오늘 살펴볼 논문은 “Accelerating Inference of Retrieval-Augmented Generation via Sparse Context Selection”과 해당 논문의 기반이 되는 “Parallel Context Windows for Large Language Models “이다. 우선 PCW(Parallel Context Window)는 기존의 LLM에서 In-context Learning을 위해 매우 긴 길이의 컨텍스트 데이터를 사용할 때 발생하는 문제들을 해결하기 위한 방법이다. Transformer 기반의 모델은 Self-Attention 더 읽기