RocketQAv2: A Joint Training Method for Dense Passage Retrieval and Passage Re-ranking

오늘 간단하게 살펴볼 논문은  RocketQAv2 논문이다. 2021년에 발표되었던 논문이지만, Retrieval 및 Re-rank 관련 논문들을 조사하면서 다시 살펴보게 되었다.     우선 Bi-Encoder 기반의 Retrieval 방식보다 Cross-Encoder 기반의 Retrieval 방식이 당연하게도 더 좋은 성능을 얻을 수 있다. 이에 다른 이전 연구에서는 Cross-Encoder와 Bi-Encoder를 각각 따로 학습을 시키고, Cross-Encoder의 지식을 Distillation 하는 더 읽기

Bird Benchmark의 Text-to-SQL 논문 정리 – 3(완) (Distillery, CHASE-SQL)

오늘은 Bird Benchmark에 올라온 Text-to-SQL 논문들을 살펴보는 마지막 글이다. 오늘 살펴볼 두 논문은 다음과 같다.     The Death of Schema Linking? Text-to-SQL in the Age of Well-Reasoned Language Models CHASE-SQL: Multi-Path Reasoning and Preference Optimized Candidate Selection in Text-to-SQL   Distillery 우선 첫 번째 논문부터 살펴보겠다. 첫 번째 논문의 더 읽기

Bird Benchmark의 Text-to-SQL 논문 정리 – 2 (E-SQL, CHESS)

오늘은 이전 글, Bird Benchmark의 Text-to-SQL 논문 정리 – 1에 이어서 다음 논문들을 정리해볼 예정이다. 오늘 살펴볼 논문은 다음 두 가지이다.   E-SQL: Direct Schema Linking via Question Enrichment in Text-to-SQL CHESS: Contextual Harnessing for Efficient SQL Synthesis   E-SQL   Text-to-SQL 작업을 엔터티 및 문맥 검색, 스키마 선택, 쿼리 더 읽기

논문 정리: RAGCache: Efficient Knowledge Caching for Retrieval-Augmented Generation

오늘 살펴볼 논문은 RAG Cahe라는 논문이다. KV Cache는 토큰을 하나씩 생성하면서 이전 생성 단계에서 연산했던 Key와 Value를 Cache에 저장하여 중복 연산을 방지함으로써 실행 시간을 크게 개선할 수 있었다. RAG Cache는 이러한 Cache 기법을 RAG(Retrieval Augmented Generation) 시스템의 관점에서 적용한 방법이다.   그림 1. RAG의 실행 과정   RAG에서는 Retrieval 과정을 더 읽기

논문 정리: RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval

오늘 살펴볼 논문은 “RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval”이다. 해당 논문은 매우 긴 컨텍스트에서 LLM을 실행할 때 필요한 Latency를 최소화하기 위한 Attention 방법이다. KV Cache를 통해서 어텐션을 계산할 때, 새로운 토큰이 생성되면 생성된 토큰의 Query와 나머지 토큰들의 Key간에 어텐션을 구하기 위해서 벡터를 내적하게 된다.   그림 1. KV 더 읽기

Bird Benchmark의 Text-to-SQL 논문 정리 – 1

오늘 작성할 글은 Bird Benchmark 리더보드에 등록되어 있는 모델들의 논문을 차례대로 정리해보려고 한다.   논문명 날짜 DIN-SQL: Decomposed In-Context Learning of Text-to-SQL with Self-Correction 2023.04 Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation 2023.11 Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation 2023.12 DTS-SQL: Decomposed Text-to-SQL with Small 더 읽기

박사 학위논문: “다양한 도메인과 데이터 형식에 강건한 사전학습 언어모델 기반의 표 질의응답 방법”

제목: 다양한 도메인과 데이터 형식에 강건한 사전학습 언어모델 기반의 표 질의응답 방법   요약   표 데이터는 다양한 도메인의 문서에 존재하며, 표 데이터가 존재하는 문서나 데이터의 도메인에 따라 표의 형태와 사용되는 데이터가 크게 달라질 수 있다. 이에 따라, 이러한 다양한 형태나 도메인의 표 데이터에 대응할 수 있는 적합한 학습 방법이 더 읽기

논문 정리: “Training Language Models to Self-Correct via Reinforcement Learning”

오늘 살펴볼 논문은 “Training Language Models to Self-Correct via Reinforcement Learning”이다. 해당 논문은 DeepMind에서 발표한 Self-Correction과 관련된 논문이다.   그림 1. 제안된 SCoRE의 성능과 다른 방법들의 성능 비교   Self-Correction은 LLM이 어떤 태스크에 대한 답변을 생성했을 때, 해당 모델이 생성한 답변을 기준으로 틀린 부분을 고쳐서 더 개선된 답안을 얻기 위한 더 읽기

논문 정리 “ADAPTING LARGE LANGUAGE MODELS TO DOMAINS VIA READING COMPREHENSION”

오늘은 이전에 포스팅했었던 “INSTRUCTION PRE-TRAINING: LANGUAGE MODELS ARE SUPERVISED MULTITASK LEARNERS“의 이전 연구인 “ADAPTING LARGE LANGUAGE MODELS TO DOMAINS VIA READING COMPREHENSION”를 살펴보겠다. 그림 1. Domain-Specific 태스크 성능 그림 1은 각 사전학습 방법별 특정 도메인에 특화된 태스크에서의 성능을 나타낸다. DAPT는 도메인에 특화된 원시 말뭉치에 Continued Pretraining을 적용한 모델이며, AdaptLLM은 해당 더 읽기

Instruction Pre-Training: Language Models are Supervised Multitask Learners

오늘 살펴볼 논문은 ” Instruction Pre-Training: Language Models are Supervised Multitask Learners “이다. 저번에 살펴본 논문에서 데이터를 합성하는 MEGPIE를 살펴보았는데, 오늘도 이어서 LLM을 이용한 데이터 합성과 관련된 논문을 살펴보았다.   아래의 그림은 논문에서 제안된 Instruction Pre-Training의 방법을 나타낸다.   그림 1. 기존의 사전학습 방법과 제안된 Instruction Pre-training 방법의 비교   더 읽기