논문 리뷰 - delosycho

Bird Benchmark의 Text-to-SQL 논문 정리 – 1

작성일자 2024년 10월 09일2024년 10월 09일 글쓴이 delosycho

오늘 작성할 글은 Bird Benchmark 리더보드에 등록되어 있는 모델들의 논문을 차례대로 정리해보려고 한다. 논문명 날짜 DIN-SQL: Decomposed In-Context Learning of Text-to-SQL with Self-Correction 2023.04 Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation 2023.11 Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation 2023.12 DTS-SQL: Decomposed Text-to-SQL with Small 더 읽기

논문 정리: “Training Language Models to Self-Correct via Reinforcement Learning”

작성일자 2024년 10월 02일2024년 10월 02일 글쓴이 delosycho

오늘 살펴볼 논문은 “Training Language Models to Self-Correct via Reinforcement Learning”이다. 해당 논문은 DeepMind에서 발표한 Self-Correction과 관련된 논문이다. 그림 1. 제안된 SCoRE의 성능과 다른 방법들의 성능 비교 Self-Correction은 LLM이 어떤 태스크에 대한 답변을 생성했을 때, 해당 모델이 생성한 답변을 기준으로 틀린 부분을 고쳐서 더 개선된 답안을 얻기 위한 더 읽기

논문 정리 “ADAPTING LARGE LANGUAGE MODELS TO DOMAINS VIA READING COMPREHENSION”

작성일자 2024년 10월 01일2024년 10월 01일 글쓴이 delosycho

오늘은 이전에 포스팅했었던 “INSTRUCTION PRE-TRAINING: LANGUAGE MODELS ARE SUPERVISED MULTITASK LEARNERS“의 이전 연구인 “ADAPTING LARGE LANGUAGE MODELS TO DOMAINS VIA READING COMPREHENSION”를 살펴보겠다. 그림 1. Domain-Specific 태스크 성능 그림 1은 각 사전학습 방법별 특정 도메인에 특화된 태스크에서의 성능을 나타낸다. DAPT는 도메인에 특화된 원시 말뭉치에 Continued Pretraining을 적용한 모델이며, AdaptLLM은 해당 더 읽기

논문 리뷰: MCS-SQL: Leveraging Multiple Prompts and Multiple-Choice Selection For Text-to-SQL Generation

작성일자 2024년 09월 11일2024년 09월 11일 글쓴이 delosycho

오늘 살펴볼 논문은 두나무에서 발표한 ” MCS-SQL: Leveraging Multiple Prompts and Multiple-Choice Selection For Text-to-SQL Generation”이다. 해당 논문은 한동안 BIRD-SQL 태스크에서 1위를 기록했던 모델을 소개하고 있다. 아래의 그림은 MCS-SQL의 전체적인 구조를 나타낸다. 그림 1. MCS-SQL 모델 구조 위의 그림을 살펴보면 모델의 실행 스텝은 총 3가지로 이루어져 있다. Schema 더 읽기

BIRD 벤치마크 데이터셋: Can LLM Already Serve as A Database Interface? A BIg Bench for Large-Scale Database Grounded Text-to-SQLs

작성일자 2024년 09월 08일2024년 09월 09일 글쓴이 delosycho

오늘은 저번 글에서도 자주 등장했던 BIRD 데이터셋을 공개한 논문인 “Can LLM Already Serve as A Database Interface? A BIg Bench for Large-Scale Database Grounded Text-to-SQLs”을 설펴보겠다. 우선, BIRD는 Text2SQL 태스크의 벤치마크 데이터셋 중 하나이다. Text2SQL 태스크는 자연어 질문을 SQL로 변환하고 그것을 SQL Engine에서 실행시켜 자연어 질문에 대한 답을 얻는 태스크이다. 더 읽기

DB(Table)를 이용한 증강 생성: Text2SQL is Not Enough: Unifying AI and Databases with TAG

작성일자 2024년 09월 06일2024년 09월 11일 글쓴이 delosycho

현재 RAG는 매우 많은 분야에서 다양한 응용으로 적용되고 있다. 하지만, RAG는 단순하게 관련성을 기반으로 몇 개의 데이터들을 가져와서 한번의 LM 호출(Single LM invocaton)으로 결과를 생성한다. 이러한 모델은 일부 답변가능한 질문들 밖에 처리할 수 없으며, Computational 태스크인 Counting, Math, Filtering과 같은 연산에서는 에러에 취약할 수 밖에 없다. 이러한 점을 고려하여, 해당 더 읽기

논문 정리: TABLEFORMER: Robust Transformer Modeling for Table-Text Encoding

작성일자 2024년 07월 26일 글쓴이 delosycho

오늘 살펴볼 논문은 “TABLEFORMER: Robust Transformer Modeling for Table-Text Encoding”이다. 해당 논문은 TAPAS의 문제점을 지적하고 해당 모델을 개선한 모델이다. 그림 1. 기존 표 인코딩 모델의 문제점 제시 그림 2. TAPAS에 입력되는 임베딩 목록 위의 그림은 TAPAS의 한계점을 지적하고 있다. 우선 TAPAS에서 제안했던 핵심 아이디어를 살펴보면, 2차원 구조를 가지는 더 읽기

RAG의 파인튜닝 관련 논문 리뷰: RAFT, DuetRAG, ATM

작성일자 2024년 07월 23일2024년 07월 25일 글쓴이 delosycho

오늘 리뷰해볼 논문은 RAG를 위한 파인튜닝과 관련된 논문들이다. 1.RAFT: Adapting Language Model to Domain Specific RAG 2.DUETRAG: COLLABORATIVE RETRIEVAL-AUGMENTED GENERATION 3.ATM: Adversarial Tuning Multi-agent System Makes a Robust Retrieval-Augmented Generator 일반적으로 LLM을 활용하는 방법으로는 In-Context Learning을 하는 방법과 Fine-Tuning을 하는 방법이 있다. RAG는 검색된 결과를 컨텍스트에 포함시키고 해당 컨텍스트를 참조하여 더 읽기

논문 리뷰: TAT-LLM: A Specialized Language Model for Discrete Reasoning over Tabular and Textual Data + (TableLLama)

작성일자 2024년 07월 22일2024년 07월 24일 글쓴이 delosycho

오늘은 TAT-DQA에 이어서 TAT-LLM을 리뷰해보려고 한다. TAT-LLM은 TAT-QA와 같은 표와 텍스트를 모두 읽고 답하는 태스크를 LLM을 이용해서 구현한 모델이다. 그림 1. TAT(Table-and-Text) 관련 태스크 예시 이번 논문에서는 표와 텍스트를 동시에 다루는 QA 벤치마크인 TAT-QA, TAT-DQA, FinQA를 대상으로 실험을 진행하였다. 그림 2. TAT-LLM 모델 구조 위의 그림은 TAT-LLM의 전체적인 구조를 더 읽기

논문 정리: LLM기반 Table Parsing

작성일자 2024년 04월 05일2024년 07월 26일 글쓴이 delosycho

최근 테이블 파싱의 대표적인 벤치마크 중 하나인 WikiTQ의 상위권을 기록하고 있는 모델들 중에서 CABINET을 제외하고 대부분이 CODEX와 같은 대규모 언어모형을 이용하는 모델이다. 오늘은 이러한 LLM을 이용한 테이블 파싱 논문들을 소개하고 정리하고자 한다. 본 글에서 다루고 있는 논문들 목록은 다음과 같다. BINDING LANGUAGE MODELS IN SYMBOLIC LANGUAGES LEVER: Learning to Verify 더 읽기