delosycho - delosycho

논문 정리: RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval

작성일자 2024년 10월 10일2025년 01월 08일 글쓴이 delosycho

오늘 살펴볼 논문은 “RetrievalAttention: Accelerating Long-Context LLM Inference via Vector Retrieval”이다. 해당 논문은 매우 긴 컨텍스트에서 LLM을 실행할 때 필요한 Latency를 최소화하기 위한 Attention 방법이다. KV Cache를 통해서 어텐션을 계산할 때, 새로운 토큰이 생성되면 생성된 토큰의 Query와 나머지 토큰들의 Key간에 어텐션을 구하기 위해서 벡터를 내적하게 된다. 그림 1. KV 더 읽기

Bird Benchmark의 Text-to-SQL 논문 정리 – 1

작성일자 2024년 10월 09일2024년 10월 09일 글쓴이 delosycho

오늘 작성할 글은 Bird Benchmark 리더보드에 등록되어 있는 모델들의 논문을 차례대로 정리해보려고 한다. 논문명 날짜 DIN-SQL: Decomposed In-Context Learning of Text-to-SQL with Self-Correction 2023.04 Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation 2023.11 Text-to-SQL Empowered by Large Language Models: A Benchmark Evaluation 2023.12 DTS-SQL: Decomposed Text-to-SQL with Small 더 읽기

박사 학위논문: “다양한 도메인과 데이터 형식에 강건한 사전학습 언어모델 기반의 표 질의응답 방법”

작성일자 2024년 10월 05일2025년 01월 21일 글쓴이 delosycho

제목: 다양한 도메인과 데이터 형식에 강건한 사전학습 언어모델 기반의 표 질의응답 방법 요약 표 데이터는 다양한 도메인의 문서에 존재하며, 표 데이터가 존재하는 문서나 데이터의 도메인에 따라 표의 형태와 사용되는 데이터가 크게 달라질 수 있다. 이에 따라, 이러한 다양한 형태나 도메인의 표 데이터에 대응할 수 있는 적합한 학습 방법이 더 읽기

논문 정리: “Training Language Models to Self-Correct via Reinforcement Learning”

작성일자 2024년 10월 02일2024년 10월 02일 글쓴이 delosycho

오늘 살펴볼 논문은 “Training Language Models to Self-Correct via Reinforcement Learning”이다. 해당 논문은 DeepMind에서 발표한 Self-Correction과 관련된 논문이다. 그림 1. 제안된 SCoRE의 성능과 다른 방법들의 성능 비교 Self-Correction은 LLM이 어떤 태스크에 대한 답변을 생성했을 때, 해당 모델이 생성한 답변을 기준으로 틀린 부분을 고쳐서 더 개선된 답안을 얻기 위한 더 읽기

논문 정리 “ADAPTING LARGE LANGUAGE MODELS TO DOMAINS VIA READING COMPREHENSION”

작성일자 2024년 10월 01일2024년 10월 01일 글쓴이 delosycho

오늘은 이전에 포스팅했었던 “INSTRUCTION PRE-TRAINING: LANGUAGE MODELS ARE SUPERVISED MULTITASK LEARNERS“의 이전 연구인 “ADAPTING LARGE LANGUAGE MODELS TO DOMAINS VIA READING COMPREHENSION”를 살펴보겠다. 그림 1. Domain-Specific 태스크 성능 그림 1은 각 사전학습 방법별 특정 도메인에 특화된 태스크에서의 성능을 나타낸다. DAPT는 도메인에 특화된 원시 말뭉치에 Continued Pretraining을 적용한 모델이며, AdaptLLM은 해당 더 읽기

Instruction Pre-Training: Language Models are Supervised Multitask Learners

작성일자 2024년 09월 29일 글쓴이 delosycho

오늘 살펴볼 논문은 ” Instruction Pre-Training: Language Models are Supervised Multitask Learners “이다. 저번에 살펴본 논문에서 데이터를 합성하는 MEGPIE를 살펴보았는데, 오늘도 이어서 LLM을 이용한 데이터 합성과 관련된 논문을 살펴보았다. 아래의 그림은 논문에서 제안된 Instruction Pre-Training의 방법을 나타낸다. 그림 1. 기존의 사전학습 방법과 제안된 Instruction Pre-training 방법의 비교 더 읽기

LLM을 이용한 데이터 합성: “MAGPIE: Alignment Data Synthesis from Scratch by Prompting Aligned LLMs with Nothing”

작성일자 2024년 09월 28일2024년 09월 29일 글쓴이 delosycho

최근에는 LLM을 이용하여 합성된 데이터를 이용하여 모델을 학습하려는 다양한 연구들이 더더욱 많아지고 있다. MEGPIE는 LLM을 이용하여 사람의 개입없이 Alignment 데이터를 합성하는 방법을 소개하고 있다. MEGPIE부터 살펴보면, Llama-3와 같은 모델은 현재도 3.2 버전이 발표될 정도로 다양한 크기의 다양한 모델들이 공개되어 많은 연구자들이 활용하고 있는 모델이다. 해당 모델은 AI의 Democratization을 지향하면서 더 읽기

데이콘 재정정보 AI 검색 알고리즘 경진대회 참가기

작성일자 2024년 09월 26일2024년 10월 01일 글쓴이 delosycho

본 글은 얼마전 데이콘에서 열렸던 “재정정보 AI 검색 알고리즘 경진대회”를 진행하면서 적용해보았던 방법들을 간단하게 정리한 글이다. 해당 대회는 데이콘에 잠깐 접속을 하였다가 RAG와 관련된 대회를 진행하는 것을 보고 좋은 경험이 될 것 같아서 진행하게 되었다. 해당 대회에서는 재정 보고서, 예산 설명 자료, 기획재정부 보도 자료 등을 바탕으로 질의응답을 더 읽기

논문 정리: Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling

작성일자 2024년 09월 22일 글쓴이 delosycho

오늘 살펴볼 논문은 “Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling”이다. 논문의 전체적인 내용을 요약하면 다음과 같다. 좀 더 강력한 언어모델로부터 생성한 고품질의 합성 데이터(Synthetic Data)를 이용하여 학습하는 전략은 대중적으로 사용되고 있는 방법이다. 해당 논문에서는 이러한 전략이 정말로 compute-optimal한지 살펴보기 위해서 FLOPS를 한정시켜놓고 다양한 실험을 진행한다. 이를 위해 더 읽기

논문 리뷰: MCS-SQL: Leveraging Multiple Prompts and Multiple-Choice Selection For Text-to-SQL Generation

작성일자 2024년 09월 11일2024년 09월 11일 글쓴이 delosycho

오늘 살펴볼 논문은 두나무에서 발표한 ” MCS-SQL: Leveraging Multiple Prompts and Multiple-Choice Selection For Text-to-SQL Generation”이다. 해당 논문은 한동안 BIRD-SQL 태스크에서 1위를 기록했던 모델을 소개하고 있다. 아래의 그림은 MCS-SQL의 전체적인 구조를 나타낸다. 그림 1. MCS-SQL 모델 구조 위의 그림을 살펴보면 모델의 실행 스텝은 총 3가지로 이루어져 있다. Schema 더 읽기