최근 테이블 파싱의 대표적인 벤치마크 중 하나인 WikiTQ의 상위권을 기록하고 있는 모델들 중에서 CABINET을 제외하고 대부분이 CODEX와 같은 대규모 언어모형을 이용하는 모델이다. 오늘은 이러한 LLM을 이용한 테이블 파싱 논문들을 소개하고 정리하고자 한다. 본 글에서 다루고 있는 논문들 목록은 다음과 같다. BINDING LANGUAGE MODELS IN SYMBOLIC LANGUAGES LEVER: Learning to Verify 더 읽기
논문 정리: Table Pre-training: A Survey on Model Architectures, Pre-training Objectives, and Downstream Tasks
이번 연구에서는 Table 데이터에 잘 동작하는 언어모델 구축을 위한 다양한 모델 아키텍쳐, 사전학습 방법 그리고 이와 관련된 Downstream 태스크들을 정리해놓은 Survey 논문을 정리하고 공부해보았다. 사전학습 언어모델은 다양한 자연어처리 태스크에서 활용되어 많은 성과를 보여주었다. 하지만 표 데이터는 자연어 텍스트 데이터와는 다른 특성을 가지고 있기 때문에 사전학습 언어모델을 표 데이터에 그대로 적용하는 더 읽기
연구동향 정리: Synthetic Data Generation for Table Question Answering and Semantic Parsing
공개되고 있는 여러 모델의 사전학습에는 엄청나게 많은 데이터들이 이용되고 있다. 자연어 기반의 사전학습 데이터는 다양한 매체에서 다양한 형태나 정보의 데이터를 수집하는 것이 가능하지만, 표 데이터를 이용하는 사전학습 데이터는 종류가 다양하지도 않으며 엄청나게 많이 구하는데에 한계가 존재한다. 또한 사전학습 과정에서 유의미한 의미를 도출하려면 표 데이터뿐만 아니라 해당 표 데이터와 함께 얻을 더 읽기
Table Retrieval May Not Necessitate Table-specific Model Design
오늘 정리해볼 논문은 “Table Retrieval May Not Necessitate Table-specific Model Design”이다. 여러 논문에서 Table Retrieval에는 테이블에 특화된 모델 구조(Table Specific Model Archirecture)이 적용되었고 특화된 모델 구조가 효과적이라고 주장을 해왔다. 이 논문에서는 이러한 주장과 반대로 Table Retrieval에서 표에 특화된 모델 구조가 꼭 필요하지 않을 수 있다고 주장을 한다. NQ(Natural Questions) 데이터셋에서 더 읽기
OPEN QUESTION ANSWERING OVER TABLES AND TEXT
이번에 정리해볼 논문은 OTTQA(Open Table Text Question Answering)에 관한 논문이다. 우선 Open Domain QA는 Closed Domain QA와 다르게 질문이 주어지고 질문에 대한 정답과 정답을 찾을 수 있는 단서 등이 제공되지 않고 질문과 정답을 찾기 위한 단서를 탐색하고 탐색된 단서에서 최종적인 정답을 찾아내는 태스크이다. 일반적으로 해당 태스크는 텍스트 문서에 대한 데이터셋들이 더 읽기
논문 리뷰: Dense Table Retrieval에 관한 연구 동향 정리
이번 논문에서는 Dense Table Retrieval에 관한 3가지 논문을 연결해서 같이 리뷰를 해보려고 한다. “Open Domain Question Answering over Tables via Dense Retrieval ” “Bridge the Gap between Language models and Tabular Understanding” “Enhancing Open-Domain Table Question Answering via Syntax- and Structure-aware Dense Retrieval ” 우선 Dense Retrieval에 대해서 간단하게 더 읽기
논문 리뷰: GRAPPA: GRAMMAR-AUGMENTED PRE-TRAINING FOR TABLE SEMANTIC PARSING
최근 합성 데이터 기술 스타트업들이 빠르게 성장하고 있으며, 합성 데이터의 시장이 37조까지 성장하고 있다고 한다. 그렇다면 합성 데이터는 어떤 데이터일까? 테슬라에서는 자율 주행 자동차를 학습시키기 위해서 수 많은 데이터를 필요로 하고 있지만 모두 수집하고 태깅하기에는 너무나 많은 비용과 시간을 필요로 한다. 이에 테슬라에서는 사고 사례를 중심으로 합성 데이터를 만들어서 학습을 더 읽기
About Me
Linkedin: https://www.linkedin.com/in/sanghyun-cho-02434b94/ Google Scholar: https://scholar.google.co.kr/citations?hl=ko&user=SKRW6a0AAAAJ&view_op=list_works&sortby=pubdate Education ~2019 부산대학교 정보컴퓨터공학부 공학학사 ~2021 부산대학교 정보융합공학과 AI 전공 공학석사(지도교수: 권혁철) 2021~ 부산대학교 정보융합공학과 AI 전공 박사과정(지도교수: 권혁철) Research Project 2018.03~2020.03 컨텍스트 인지형 Deep-Symbolic 하이브리드 지능 원천 기술 개발 및 언어 지식 자원 구축(엑소브레인 3세부), 한국전자통신연구원 2020.03~2023.03 휴먼 지식증강 서비스를 위한 지능진화형 더 읽기
논문 리뷰: Understanding tables with intermediate pre-training
이번 글에서는 “Understanding tables with intermediate pre-training “을 리뷰해보려고 한다. 이번 논문에서는 “Table Entailment”라는 태스크가 중심으로 다루어지고 있는데, 이 태스크는 설명하기 전에 Text Entailment를 먼저 설명하겠다. Text Entailment는 자연어추론(Natural Language Processing Inference)라고도 불리는데 입력된 두 텍스트 간의 관계를 예측하는 태스크이다. 관계는 보통 Entailment, Refuted, Neutral로 이루어져 있다. 아래는 위키피디아 Text 더 읽기
논문 리뷰: Tapas: Weakly Supervised Table Parsing via Pre-training
오늘 소개할 논문은 이전 논문이지만 TAPAS를 다루려고 한다. 앞으로 테이블을 다루는 언어모형에 관한 글을 순차적으로 다룰 예정인데, 그 시작으로 TAPAS를 먼저 리뷰해보려고 한다. 위의 그림은 표 질의응답의 예시를 나타낸다. “나는 [MASK] 갔다.” => “나는 집으로 갔다.”와 같은 MaskLM을 이용한 언어모형의 사전학습 방법은 많은 NLP태스크에서 SOTA를 기록했었으며, 이를 통해서 더 읽기