오늘 살펴볼 논문은 “Training Language Models to Self-Correct via Reinforcement Learning”이다. 해당 논문은 DeepMind에서 발표한 Self-Correction과 관련된 논문이다. 그림 1. 제안된 SCoRE의 성능과 다른 방법들의 성능 비교 Self-Correction은 LLM이 어떤 태스크에 대한 답변을 생성했을 때, 해당 모델이 생성한 답변을 기준으로 틀린 부분을 고쳐서 더 개선된 답안을 얻기 위한 더 읽기