이번 연구에서는 Table 데이터에 잘 동작하는 언어모델 구축을 위한 다양한 모델 아키텍쳐, 사전학습 방법 그리고 이와 관련된 Downstream 태스크들을 정리해놓은 Survey 논문을 정리하고 공부해보았다. 사전학습 언어모델은 다양한 자연어처리 태스크에서 활용되어 많은 성과를 보여주었다. 하지만 표 데이터는 자연어 텍스트 데이터와는 다른 특성을 가지고 있기 때문에 사전학습 언어모델을 표 데이터에 그대로 적용하는 더 읽기
논문 리뷰
AI, NLP 관련 논문을 읽고 리뷰하는 카테고리입니다.
연구동향 정리: Synthetic Data Generation for Table Question Answering and Semantic Parsing
공개되고 있는 여러 모델의 사전학습에는 엄청나게 많은 데이터들이 이용되고 있다. 자연어 기반의 사전학습 데이터는 다양한 매체에서 다양한 형태나 정보의 데이터를 수집하는 것이 가능하지만, 표 데이터를 이용하는 사전학습 데이터는 종류가 다양하지도 않으며 엄청나게 많이 구하는데에 한계가 존재한다. 또한 사전학습 과정에서 유의미한 의미를 도출하려면 표 데이터뿐만 아니라 해당 표 데이터와 함께 얻을 더 읽기
OPEN QUESTION ANSWERING OVER TABLES AND TEXT
이번에 정리해볼 논문은 OTTQA(Open Table Text Question Answering)에 관한 논문이다. 우선 Open Domain QA는 Closed Domain QA와 다르게 질문이 주어지고 질문에 대한 정답과 정답을 찾을 수 있는 단서 등이 제공되지 않고 질문과 정답을 찾기 위한 단서를 탐색하고 탐색된 단서에서 최종적인 정답을 찾아내는 태스크이다. 일반적으로 해당 태스크는 텍스트 문서에 대한 데이터셋들이 더 읽기
논문 리뷰: Dense Table Retrieval에 관한 연구 동향 정리
이번 논문에서는 Dense Table Retrieval에 관한 3가지 논문을 연결해서 같이 리뷰를 해보려고 한다. “Open Domain Question Answering over Tables via Dense Retrieval ” “Bridge the Gap between Language models and Tabular Understanding” “Enhancing Open-Domain Table Question Answering via Syntax- and Structure-aware Dense Retrieval ” 우선 Dense Retrieval에 대해서 간단하게 더 읽기
논문 리뷰: GRAPPA: GRAMMAR-AUGMENTED PRE-TRAINING FOR TABLE SEMANTIC PARSING
최근 합성 데이터 기술 스타트업들이 빠르게 성장하고 있으며, 합성 데이터의 시장이 37조까지 성장하고 있다고 한다. 그렇다면 합성 데이터는 어떤 데이터일까? 테슬라에서는 자율 주행 자동차를 학습시키기 위해서 수 많은 데이터를 필요로 하고 있지만 모두 수집하고 태깅하기에는 너무나 많은 비용과 시간을 필요로 한다. 이에 테슬라에서는 사고 사례를 중심으로 합성 데이터를 만들어서 학습을 더 읽기
논문 리뷰: Understanding tables with intermediate pre-training
이번 글에서는 “Understanding tables with intermediate pre-training “을 리뷰해보려고 한다. 이번 논문에서는 “Table Entailment”라는 태스크가 중심으로 다루어지고 있는데, 이 태스크는 설명하기 전에 Text Entailment를 먼저 설명하겠다. Text Entailment는 자연어추론(Natural Language Processing Inference)라고도 불리는데 입력된 두 텍스트 간의 관계를 예측하는 태스크이다. 관계는 보통 Entailment, Refuted, Neutral로 이루어져 있다. 아래는 위키피디아 Text 더 읽기
논문 리뷰: Tapas: Weakly Supervised Table Parsing via Pre-training
오늘 소개할 논문은 이전 논문이지만 TAPAS를 다루려고 한다. 앞으로 테이블을 다루는 언어모형에 관한 글을 순차적으로 다룰 예정인데, 그 시작으로 TAPAS를 먼저 리뷰해보려고 한다. 위의 그림은 표 질의응답의 예시를 나타낸다. “나는 [MASK] 갔다.” => “나는 집으로 갔다.”와 같은 MaskLM을 이용한 언어모형의 사전학습 방법은 많은 NLP태스크에서 SOTA를 기록했었으며, 이를 통해서 더 읽기