오늘 작성할 글은 Bird Benchmark 리더보드에 등록되어 있는 모델들의 논문을 차례대로 정리해보려고 한다. 논문명 날짜 DIN-SQL: Decomposed In-Context Learning of Text-to-SQL with Self-Correction 2023.04 Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation 2023.11 Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation 2023.12 DTS-SQL: Decomposed Text-to-SQL with Small 더 읽기
Table QA
논문 리뷰: MCS-SQL: Leveraging Multiple Prompts and Multiple-Choice Selection For Text-to-SQL Generation
오늘 살펴볼 논문은 두나무에서 발표한 ” MCS-SQL: Leveraging Multiple Prompts and Multiple-Choice Selection For Text-to-SQL Generation”이다. 해당 논문은 한동안 BIRD-SQL 태스크에서 1위를 기록했던 모델을 소개하고 있다. 아래의 그림은 MCS-SQL의 전체적인 구조를 나타낸다. 그림 1. MCS-SQL 모델 구조 위의 그림을 살펴보면 모델의 실행 스텝은 총 3가지로 이루어져 있다. Schema 더 읽기
BIRD 벤치마크 데이터셋: Can LLM Already Serve as A Database Interface? A BIg Bench for Large-Scale Database Grounded Text-to-SQLs
오늘은 저번 글에서도 자주 등장했던 BIRD 데이터셋을 공개한 논문인 “Can LLM Already Serve as A Database Interface? A BIg Bench for Large-Scale Database Grounded Text-to-SQLs”을 설펴보겠다. 우선, BIRD는 Text2SQL 태스크의 벤치마크 데이터셋 중 하나이다. Text2SQL 태스크는 자연어 질문을 SQL로 변환하고 그것을 SQL Engine에서 실행시켜 자연어 질문에 대한 답을 얻는 태스크이다. 더 읽기
논문 정리: TABLEFORMER: Robust Transformer Modeling for Table-Text Encoding
오늘 살펴볼 논문은 “TABLEFORMER: Robust Transformer Modeling for Table-Text Encoding”이다. 해당 논문은 TAPAS의 문제점을 지적하고 해당 모델을 개선한 모델이다. 그림 1. 기존 표 인코딩 모델의 문제점 제시 그림 2. TAPAS에 입력되는 임베딩 목록 위의 그림은 TAPAS의 한계점을 지적하고 있다. 우선 TAPAS에서 제안했던 핵심 아이디어를 살펴보면, 2차원 구조를 가지는 더 읽기
논문 정리: LLM기반 Table Parsing
최근 테이블 파싱의 대표적인 벤치마크 중 하나인 WikiTQ의 상위권을 기록하고 있는 모델들 중에서 CABINET을 제외하고 대부분이 CODEX와 같은 대규모 언어모형을 이용하는 모델이다. 오늘은 이러한 LLM을 이용한 테이블 파싱 논문들을 소개하고 정리하고자 한다. 본 글에서 다루고 있는 논문들 목록은 다음과 같다. BINDING LANGUAGE MODELS IN SYMBOLIC LANGUAGES LEVER: Learning to Verify 더 읽기
논문 정리: Table Pre-training: A Survey on Model Architectures, Pre-training Objectives, and Downstream Tasks
이번 연구에서는 Table 데이터에 잘 동작하는 언어모델 구축을 위한 다양한 모델 아키텍쳐, 사전학습 방법 그리고 이와 관련된 Downstream 태스크들을 정리해놓은 Survey 논문을 정리하고 공부해보았다. 사전학습 언어모델은 다양한 자연어처리 태스크에서 활용되어 많은 성과를 보여주었다. 하지만 표 데이터는 자연어 텍스트 데이터와는 다른 특성을 가지고 있기 때문에 사전학습 언어모델을 표 데이터에 그대로 적용하는 더 읽기
연구동향 정리: Synthetic Data Generation for Table Question Answering and Semantic Parsing
공개되고 있는 여러 모델의 사전학습에는 엄청나게 많은 데이터들이 이용되고 있다. 자연어 기반의 사전학습 데이터는 다양한 매체에서 다양한 형태나 정보의 데이터를 수집하는 것이 가능하지만, 표 데이터를 이용하는 사전학습 데이터는 종류가 다양하지도 않으며 엄청나게 많이 구하는데에 한계가 존재한다. 또한 사전학습 과정에서 유의미한 의미를 도출하려면 표 데이터뿐만 아니라 해당 표 데이터와 함께 얻을 더 읽기
OPEN QUESTION ANSWERING OVER TABLES AND TEXT
이번에 정리해볼 논문은 OTTQA(Open Table Text Question Answering)에 관한 논문이다. 우선 Open Domain QA는 Closed Domain QA와 다르게 질문이 주어지고 질문에 대한 정답과 정답을 찾을 수 있는 단서 등이 제공되지 않고 질문과 정답을 찾기 위한 단서를 탐색하고 탐색된 단서에서 최종적인 정답을 찾아내는 태스크이다. 일반적으로 해당 태스크는 텍스트 문서에 대한 데이터셋들이 더 읽기
논문 리뷰: Dense Table Retrieval에 관한 연구 동향 정리
이번 논문에서는 Dense Table Retrieval에 관한 3가지 논문을 연결해서 같이 리뷰를 해보려고 한다. “Open Domain Question Answering over Tables via Dense Retrieval ” “Bridge the Gap between Language models and Tabular Understanding” “Enhancing Open-Domain Table Question Answering via Syntax- and Structure-aware Dense Retrieval ” 우선 Dense Retrieval에 대해서 간단하게 더 읽기
논문 리뷰: GRAPPA: GRAMMAR-AUGMENTED PRE-TRAINING FOR TABLE SEMANTIC PARSING
최근 합성 데이터 기술 스타트업들이 빠르게 성장하고 있으며, 합성 데이터의 시장이 37조까지 성장하고 있다고 한다. 그렇다면 합성 데이터는 어떤 데이터일까? 테슬라에서는 자율 주행 자동차를 학습시키기 위해서 수 많은 데이터를 필요로 하고 있지만 모두 수집하고 태깅하기에는 너무나 많은 비용과 시간을 필요로 한다. 이에 테슬라에서는 사고 사례를 중심으로 합성 데이터를 만들어서 학습을 더 읽기