박사 학위논문: “다양한 도메인과 데이터 형식에 강건한 사전학습 언어모델 기반의 표 질의응답 방법”

제목: 다양한 도메인과 데이터 형식에 강건한 사전학습 언어모델 기반의 표 질의응답 방법

 

요약

 

표 데이터는 다양한 도메인의 문서에 존재하며, 표 데이터가 존재하는 문서나 데이터의 도메인에 따라 표의 형태와 사용되는 데이터가 크게 달라질 수 있다. 이에 따라, 이러한 다양한 형태나 도메인의 표 데이터에 대응할 수 있는 적합한 학습 방법이 요구된다. 본 논문에서는 다양한 도메인과 형태의 표 데이터를 처리하기 위한 표 질의응답 학습 방법을 제안한다. 표와 텍스트가 결합된 데이터에서 동시에 추론하고 정보를 처리할 때, 표와 텍스트 데이터를 결합된 모델에서 동시에 인코딩하면서 표의 구조적 정보를 효율적으로 인코딩할 수 있는 하이브리드 모델을 설계하여, 하나의 인코더로 결합된 정보를 처리할 수 있도록 하였다. 해당 모델은 KorQuAD 2.0 데이터셋과 TAT-QA 벤치마크에서 기존 방법들보다 우수한 성능을 나타냈다. 또한, 다양한 도메인과 언어의 표 데이터를 강건하게 처리할 수 있는 적대적 학습 및 대조 학습 방법을 제안하여, 다양한 도메인 데이터 및 다중 언어에서의 표 기반 기계독해 모델의 일반화 성능을 향상시켰다. 마지막으로, 표의 정답을 얻기 위한 연산 과정이나 셀 정보가 태깅되지 않은 데이터셋에서 생성형 언어 모델을 활용한 효과적인 약한 감독 기반 학습 방법을 적용하기 위해서 기존의 정답을 직접적으로 생성하는 방식 대신 연산에 필요한 정보를 간접적으로 생성하도록 하고 강화학습과 자가학습을 통해서 성능을 개선하는 SWING 프레임워크를 제안하였다. 해당 프레임워크를 통해 TAPEX와 Omni 모델을 학습시켰을 때, WTQ 벤치마크에서 기존 성능보다 향상된 성능을 보였다.

 

본 논문은 크게 네 개의 구성으로 이루어져 있다.

  1. 다중 지문 하이브리드 기계독해
  2. 다중 도메인 표 기계독해
  3. 다중 언어 표 기계독해
  4. 약한 감독 학습 기반의 표 질의응답

 

서론

 

그림 1. 도메인별 표 데이터

 

우선 표 데이터는 법령, 행정 문서 등 다양한 도메인의 데이터에서 사용되고 있다. 표 데이터가 사용된 도메인에 따라서 표 데이터의 형태나 사용되는 용어가 크게 달라질 수 있다. 이에 따라 기존에 학습된 도메인의 데이터가 아닌 데이터를 적용하는 경우 모델의 예측 성능이 크게 달라질 수 있다.

 

그림 2. 추론이 필요한 데이터셋 예시

 

또한, 표 데이터는 일반적으로 대소비교와 순서 비교, 수치 연산 등 다양한 추론을 요구하는 질문들로 구성되는 경우가 많다. 이러한 여러 추론 과정을 포함하는 데이터셋을 구축할 때, 정답을 태깅하는 주석 작업자들이 고려해야 할 사항이 더 많다. 또한 태깅된 데이터를 검증하는 시간이 더 많이 필요할 수 있다. 이로 인해 일반적인 질의응답 데이터셋을 만드는 것 보다 더 큰 비용과 시간이 소모된다. 이러한 이유로 일반적인 질의응답 데이터셋에 비해 공개된 표 관련 질의응답 데이터셋의 종류와 수는 매우 적다. 이는 저-자원 언어의 표 질의응답 시스템 성능을 크게 제한하는 요소로 작용한다. 따라서 다양한 언어에서 원활히 작동할 수 있는 다국어 표 질의응답 연구개발이 필요하다.

 

그림 3. 구조화된 데이터의 처리가 필요한 데이터 예시

그림 3과 같이 표 데이터는 구조화된 데이터로 구성되어 있다. 이에 기존 언어모델로는 표의 구조적인 정보를 반영하여 텍스트 데이터를 인코딩하는 것이 힘들다. 일반적인 인코더 모델에서는 표 데이터를 단순하게 평면화한 후, 이를 토큰으로 변환하여 모델에 입력하기 때문이다. 이 과정에서 표의 구조적인 정보가 손실될 위험이 생기게 된다. 표의 이러한 구조적인 정보를 효과적으로 인코딩하고 추론하려면, 표 데이터에 특화된 모델 구조와 학습 방법이 필요하다.

 

이에 본 논문에서는 표의 구조적인 정보를 잘 포착하면서도 텍스트 데이터에서의 성능을 잘 낼 수 있는 모델 구조, 다양한 도메인에서 잘 동작할 수 있는 표 기계독해 방법, 다양한 언어에서 잘 동작 할 수 있는 표 기계독해 학습 방법, 태깅이 완전하지 않은 데이터셋에서의 표 질의응답에 관한 내용을 다룬다.

 

 

 

관련 글

답글 남기기

이메일 주소는 공개되지 않습니다. 필수 필드는 *로 표시됩니다