오늘은 Bird Benchmark에 올라온 Text-to-SQL 논문들을 살펴보는 마지막 글이다. 오늘 살펴볼 두 논문은 다음과 같다. The Death of Schema Linking? Text-to-SQL in the Age of Well-Reasoned Language Models CHASE-SQL: Multi-Path Reasoning and Preference Optimized Candidate Selection in Text-to-SQL Distillery 우선 첫 번째 논문부터 살펴보겠다. 첫 번째 논문의 더 읽기
기록용 리뷰
Bird Benchmark의 Text-to-SQL 논문 정리 – 2 (E-SQL, CHESS)
오늘은 이전 글, Bird Benchmark의 Text-to-SQL 논문 정리 – 1에 이어서 다음 논문들을 정리해볼 예정이다. 오늘 살펴볼 논문은 다음 두 가지이다. E-SQL: Direct Schema Linking via Question Enrichment in Text-to-SQL CHESS: Contextual Harnessing for Efficient SQL Synthesis E-SQL Text-to-SQL 작업을 엔터티 및 문맥 검색, 스키마 선택, 쿼리 더 읽기
Instruction Pre-Training: Language Models are Supervised Multitask Learners
오늘 살펴볼 논문은 ” Instruction Pre-Training: Language Models are Supervised Multitask Learners “이다. 저번에 살펴본 논문에서 데이터를 합성하는 MEGPIE를 살펴보았는데, 오늘도 이어서 LLM을 이용한 데이터 합성과 관련된 논문을 살펴보았다. 아래의 그림은 논문에서 제안된 Instruction Pre-Training의 방법을 나타낸다. 그림 1. 기존의 사전학습 방법과 제안된 Instruction Pre-training 방법의 비교 더 읽기
LLM을 이용한 데이터 합성: “MAGPIE: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing”
최근에는 LLM을 이용하여 합성된 데이터를 이용하여 모델을 학습하려는 다양한 연구들이 더더욱 많아지고 있다. MEGPIE는 LLM을 이용하여 사람의 개입없이 Alignment 데이터를 합성하는 방법을 소개하고 있다. MEGPIE부터 살펴보면, Llama-3와 같은 모델은 현재도 3.2 버전이 발표될 정도로 다양한 크기의 다양한 모델들이 공개되어 많은 연구자들이 활용하고 있는 모델이다. 해당 모델은 AI의 Democratization을 지향하면서 더 읽기
논문 정리: Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling
오늘 살펴볼 논문은 “Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling”이다. 논문의 전체적인 내용을 요약하면 다음과 같다. 좀 더 강력한 언어모델로부터 생성한 고품질의 합성 데이터(Synthetic Data)를 이용하여 학습하는 전략은 대중적으로 사용되고 있는 방법이다. 해당 논문에서는 이러한 전략이 정말로 compute-optimal한지 살펴보기 위해서 FLOPS를 한정시켜놓고 다양한 실험을 진행한다. 이를 위해 더 읽기
신경망 기반 게임엔진 “DIFFUSION MODELS ARE REAL-TIME GAME ENGINES”
오늘 살펴볼 논문은 “DIFFUSION MODELS ARE REAL-TIME GAME ENGINES”이다. 해당 논문은 완전히 신경망 기반 모델을 기반으로 동작하는 실시간(Real-time) 게임엔진에 관한 논문이다. 해당 논문을 통해서 1장의 TPU로 20 FPS의 둠 게임을 구동할 수 있었다고 한다. 컴퓨터 게임들은 손수 제작된 소프트웨어 시스템으로 다음과 같은 게임 루프로 구성되어 있다: 유저들의 입력을 받는다 게임의 더 읽기
논문 리뷰: LLM Pruning and Distillation in Practice: The Minitron Approach
오늘 살펴볼 논문은 Nvidia에서 발표한 “LLM Pruning and Distillation in Practice: The Minitron Approach”이다. 해당 논문은 Nvidia에서 Minitron의 Pruning과 Distillation을 적용한 과정과 실질적인 결과들을 기록한 논문이다. 해당 논문에서는 LLama 3.1 모델과 Mistral NeMO 모델을 압축시킨 결과들을 정리하였다. LLM은 LLama 3,1에서 8B, 70B, 405B를 출시한 것과 같이 사용하려는 목적과 스케일에 더 읽기
파인튜닝할 레이어를 동적으로 골라주는 Flexora: Flexible Low Rank Adaptation for Large Language Models
LLM은 매우 다양한 분야의 태스크에서 압도적으로 높은 성능을 보여주고 있다. 하지만 LLM의 지식의 범위를 벗어나게 되면 제대로 작동하지 않을 수 있는데, 이 때는 일반적으로 파인튜닝을 통해서 새로운 태스크의 패턴이나 지식을 학습시키게 된다. LLM을 효율적으로 학습시키기 위한 PEFT(Parameter-Efficient Finetuning) 방법으로 LoRA가 가장 많이 사용되고 있다. 이러한 LoRA는 DoRA, AdaLoRA 등 다양한 더 읽기
LLM 기반의 Text-to-SQL: A Survey on Employing Large Language Models for Text-to-SQL Tasks
이번에 살펴볼 논문은 “A Survey on Employing Large Language Models for Text-to-SQL Tasks”으로 LLM을 이용한 Text-to-SQL 태스크를 Survey한 논문을 살펴보려고 한다. 우선 Text-to-SQL 태스크는 자연어 질문이 있으면 해당 질문에 대한 답을 얻기 위한 SQL 쿼리를 생성하는 태스크이다. 자연어 쿼리와 테이블 데이터를 입력받고 정답을 출력하도록 하는 Semantic-Parsing 태스크와 유사하다고 볼 수 더 읽기
rsLoRA & Pissa: 다양한 LoRA의 확장 메소드
(기록용 리뷰는 개인적인 기록을 위해서 남기는 글로 설명에 오류가 포함될 수 있습니다. 오류가 있다면 댓글로 언제든지 알려주세요) 허깅페이스의 PEFT에 올라와있는 모델들을 하나씩 살펴보면서 해당 논문들의 내용을 기록해두기 위해서 글을 작성하게 되었다. 먼저 살펴볼 논문은 “A Rank Stabilization Scaling Factor for Fine-Tuning with LoRA ” (rsLoRA)이다. 우선 rsLoRA는 기존의 LoRA에서 되게 더 읽기