논문 정리: RAGCache: Efficient Knowledge Caching for Retrieval-Augmented Generation

오늘 살펴볼 논문은 RAG Cahe라는 논문이다. KV Cache는 토큰을 하나씩 생성하면서 이전 생성 단계에서 연산했던 Key와 Value를 Cache에 저장하여 중복 연산을 방지함으로써 실행 시간을 크게 개선할 수 있었다. RAG Cache는 이러한 Cache 기법을 RAG(Retrieval Augmented Generation) 시스템의 관점에서 적용한 방법이다.   그림 1. RAG의 실행 과정   RAG에서는 Retrieval 과정을 더 읽기

논문 정리: RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval

오늘 살펴볼 논문은 “RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval”이다. 해당 논문은 매우 긴 컨텍스트에서 LLM을 실행할 때 필요한 Latency를 최소화하기 위한 Attention 방법이다. KV Cache를 통해서 어텐션을 계산할 때, 새로운 토큰이 생성되면 생성된 토큰의 Query와 나머지 토큰들의 Key간에 어텐션을 구하기 위해서 벡터를 내적하게 된다.   그림 1. KV 더 읽기

박사 학위논문: “다양한 도메인과 데이터 형식에 강건한 사전학습 언어모델 기반의 표 질의응답 방법”

제목: 다양한 도메인과 데이터 형식에 강건한 사전학습 언어모델 기반의 표 질의응답 방법   요약   표 데이터는 다양한 도메인의 문서에 존재하며, 표 데이터가 존재하는 문서나 데이터의 도메인에 따라 표의 형태와 사용되는 데이터가 크게 달라질 수 있다. 이에 따라, 이러한 다양한 형태나 도메인의 표 데이터에 대응할 수 있는 적합한 학습 방법이 더 읽기

VQA Dataset: Towards Complex Document Understanding By Discrete Reasoning(TAT-DQA) 정리

오늘 다룰 논문은 “Towards Complex Document Understanding By Discrete Reasoning”으로 TAT-QA 데이터셋의 후속 연구인 TAT-DQA 데이터셋을 소개하는 논문이다. 그림 1. TAT-DQA 예시   TAT-DQA는 표와 텍스트 데이터에 대한 추론을 하여 질문에 대한 답을 해야하는 테스크인 TAT-QA를 확장한 버전인데, PDF 문서를 가져와서 바로 QA에 적용했다는 특징을 가지고 있다. 처음에 이 논문을 더 읽기

연구동향 정리: Synthetic Data Generation for Table Question Answering and Semantic Parsing

공개되고 있는 여러 모델의 사전학습에는 엄청나게 많은 데이터들이 이용되고 있다. 자연어 기반의 사전학습 데이터는 다양한 매체에서 다양한 형태나 정보의 데이터를 수집하는 것이 가능하지만, 표 데이터를 이용하는 사전학습 데이터는 종류가 다양하지도 않으며 엄청나게 많이 구하는데에 한계가 존재한다. 또한 사전학습 과정에서 유의미한 의미를 도출하려면 표 데이터뿐만 아니라 해당 표 데이터와 함께 얻을 더 읽기

Table Retrieval May Not Necessitate Table-specific Model Design

오늘 정리해볼 논문은 “Table Retrieval May Not Necessitate Table-specific Model Design”이다. 여러 논문에서 Table Retrieval에는 테이블에 특화된 모델 구조(Table Specific Model Archirecture)이 적용되었고 특화된 모델 구조가 효과적이라고 주장을 해왔다. 이 논문에서는 이러한 주장과 반대로  Table Retrieval에서 표에 특화된 모델 구조가 꼭 필요하지 않을 수 있다고 주장을 한다. NQ(Natural Questions) 데이터셋에서 더 읽기

논문 리뷰: “HiTab: A Hierarchical Table Dataset for Question Answering and Natural Language Generation”

이번 논문 리뷰에서는 구조화 된 테이블(Hierarchical Table)를 다루고 있는 표 질의응답 데이터셋 HiTab을 다뤄보려고 한다. 일반적으로 기존의 표 질의응답에서 사용되는 데이터셋은 단순한 2D 구조로 이루어져 있는 평면 구조의 테이블(flat table)을 주로 다루고 있다. 평면 테이블은 아래의 그림과 같이 단순하게 위에는 아래의 셀들을 나타내는 헤드, 그리고 헤드의 밑에는 해당 헤드에 대한 더 읽기

안녕하세요!

워드프레스에 오신 것을 환영합니다. 이것은 첫 글입니다. 바로 편집하거나 삭제한 다음 쓰기 시작하세요!   반갑습니다.   테스트 중입니다!   asdasdasdasd 첫번째 문단         sdasdasdasdas     bbbbbb3