최근에는 LLM을 이용하여 합성된 데이터를 이용하여 모델을 학습하려는 다양한 연구들이 더더욱 많아지고 있다. MEGPIE는 LLM을 이용하여 사람의 개입없이 Alignment 데이터를 합성하는 방법을 소개하고 있다. MEGPIE부터 살펴보면, Llama-3와 같은 모델은 현재도 3.2 버전이 발표될 정도로 다양한 크기의 다양한 모델들이 공개되어 많은 연구자들이 활용하고 있는 모델이다. 해당 모델은 AI의 Democratization을 지향하면서 더 읽기
delosycho
데이콘 재정정보 AI 검색 알고리즘 경진대회 참가기
본 글은 얼마전 데이콘에서 열렸던 “재정정보 AI 검색 알고리즘 경진대회”를 진행하면서 적용해보았던 방법들을 간단하게 정리한 글이다. 해당 대회는 데이콘에 잠깐 접속을 하였다가 RAG와 관련된 대회를 진행하는 것을 보고 좋은 경험이 될 것 같아서 진행하게 되었다. 해당 대회에서는 재정 보고서, 예산 설명 자료, 기획재정부 보도 자료 등을 바탕으로 질의응답을 더 읽기
논문 정리: Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling
오늘 살펴볼 논문은 “Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling”이다. 논문의 전체적인 내용을 요약하면 다음과 같다. 좀 더 강력한 언어모델로부터 생성한 고품질의 합성 데이터(Synthetic Data)를 이용하여 학습하는 전략은 대중적으로 사용되고 있는 방법이다. 해당 논문에서는 이러한 전략이 정말로 compute-optimal한지 살펴보기 위해서 FLOPS를 한정시켜놓고 다양한 실험을 진행한다. 이를 위해 더 읽기
논문 리뷰: MCS-SQL: Leveraging Multiple Prompts and Multiple-Choice Selection For Text-to-SQL Generation
오늘 살펴볼 논문은 두나무에서 발표한 ” MCS-SQL: Leveraging Multiple Prompts and Multiple-Choice Selection For Text-to-SQL Generation”이다. 해당 논문은 한동안 BIRD-SQL 태스크에서 1위를 기록했던 모델을 소개하고 있다. 아래의 그림은 MCS-SQL의 전체적인 구조를 나타낸다. 그림 1. MCS-SQL 모델 구조 위의 그림을 살펴보면 모델의 실행 스텝은 총 3가지로 이루어져 있다. Schema 더 읽기
BIRD 벤치마크 데이터셋: Can LLM Already Serve as A Database Interface? A BIg Bench for Large-Scale Database Grounded Text-to-SQLs
오늘은 저번 글에서도 자주 등장했던 BIRD 데이터셋을 공개한 논문인 “Can LLM Already Serve as A Database Interface? A BIg Bench for Large-Scale Database Grounded Text-to-SQLs”을 설펴보겠다. 우선, BIRD는 Text2SQL 태스크의 벤치마크 데이터셋 중 하나이다. Text2SQL 태스크는 자연어 질문을 SQL로 변환하고 그것을 SQL Engine에서 실행시켜 자연어 질문에 대한 답을 얻는 태스크이다. 더 읽기
DB(Table)를 이용한 증강 생성: Text2SQL is Not Enough: Unifying AI and Databases with TAG
현재 RAG는 매우 많은 분야에서 다양한 응용으로 적용되고 있다. 하지만, RAG는 단순하게 관련성을 기반으로 몇 개의 데이터들을 가져와서 한번의 LM 호출(Single LM invocaton)으로 결과를 생성한다. 이러한 모델은 일부 답변가능한 질문들 밖에 처리할 수 없으며, Computational 태스크인 Counting, Math, Filtering과 같은 연산에서는 에러에 취약할 수 밖에 없다. 이러한 점을 고려하여, 해당 더 읽기
신경망 기반 게임엔진 “DIFFUSION MODELS ARE REAL-TIME GAME ENGINES”
오늘 살펴볼 논문은 “DIFFUSION MODELS ARE REAL-TIME GAME ENGINES”이다. 해당 논문은 완전히 신경망 기반 모델을 기반으로 동작하는 실시간(Real-time) 게임엔진에 관한 논문이다. 해당 논문을 통해서 1장의 TPU로 20 FPS의 둠 게임을 구동할 수 있었다고 한다. 컴퓨터 게임들은 손수 제작된 소프트웨어 시스템으로 다음과 같은 게임 루프로 구성되어 있다: 유저들의 입력을 받는다 게임의 더 읽기
논문 리뷰: LLM Pruning and Distillation in Practice: The Minitron Approach
오늘 살펴볼 논문은 Nvidia에서 발표한 “LLM Pruning and Distillation in Practice: The Minitron Approach”이다. 해당 논문은 Nvidia에서 Minitron의 Pruning과 Distillation을 적용한 과정과 실질적인 결과들을 기록한 논문이다. 해당 논문에서는 LLama 3.1 모델과 Mistral NeMO 모델을 압축시킨 결과들을 정리하였다. LLM은 LLama 3,1에서 8B, 70B, 405B를 출시한 것과 같이 사용하려는 목적과 스케일에 더 읽기
파인튜닝할 레이어를 동적으로 골라주는 Flexora: Flexible Low Rank Adaptation for Large Language Models
LLM은 매우 다양한 분야의 태스크에서 압도적으로 높은 성능을 보여주고 있다. 하지만 LLM의 지식의 범위를 벗어나게 되면 제대로 작동하지 않을 수 있는데, 이 때는 일반적으로 파인튜닝을 통해서 새로운 태스크의 패턴이나 지식을 학습시키게 된다. LLM을 효율적으로 학습시키기 위한 PEFT(Parameter-Efficient Finetuning) 방법으로 LoRA가 가장 많이 사용되고 있다. 이러한 LoRA는 DoRA, AdaLoRA 등 다양한 더 읽기
LLM 기반의 Text-to-SQL: A Survey on Employing Large Language Models for Text-to-SQL Tasks
이번에 살펴볼 논문은 “A Survey on Employing Large Language Models for Text-to-SQL Tasks”으로 LLM을 이용한 Text-to-SQL 태스크를 Survey한 논문을 살펴보려고 한다. 우선 Text-to-SQL 태스크는 자연어 질문이 있으면 해당 질문에 대한 답을 얻기 위한 SQL 쿼리를 생성하는 태스크이다. 자연어 쿼리와 테이블 데이터를 입력받고 정답을 출력하도록 하는 Semantic-Parsing 태스크와 유사하다고 볼 수 더 읽기