오늘 살펴볼 논문은 Nvidia에서 발표한 “LLM Pruning and Distillation in Practice: The Minitron Approach”이다. 해당 논문은 Nvidia에서 Minitron의 Pruning과 Distillation을 적용한 과정과 실질적인 결과들을 기록한 논문이다. 해당 논문에서는 LLama 3.1 모델과 Mistral NeMO 모델을 압축시킨 결과들을 정리하였다. LLM은 LLama 3,1에서 8B, 70B, 405B를 출시한 것과 같이 사용하려는 목적과 스케일에 더 읽기