이슈보는 집사/AI

LLMs의 추론 능력 향상: DeepSeek R1과 강화학습의 혁신

우리집 고양이 토토에요 2025. 1. 21. 01:29

LLMs의 추론 능력 향상: DeepSeek R1과 강화학습의 혁신

목차

  1. 들어가며: LLM과 추론 능력의 한계
  2. DeepSeek R10: 순수 강화학습 기반 추론 능력 향상
    2.1. GRPO 알고리즘과 보상 체계
    2.2. DeepSeek R10의 성과와 한계
  3. DeepSeek R1: 다단계 학습 파이프라인
    3.1. 콜드 스타트 단계: 고품질 추론 데이터 확보
    3.2. 추론 지향 강화학습
    3.3. 추가 지도 학습 및 강화학습
  4. DeepSeek R1의 성능 평가 및 비교
  5. 지식 증류를 통한 경량화 모델 구축
  6. DeepSeek R1의 한계점 및 향후 연구 방향
  7. 결론: 자율적 추론 능력 향상을 향한 도약

1. 들어가며: LLM과 추론 능력의 한계

최근 대규모 언어 모델(LLM)은 텍스트 생성 및 질의응답에서 놀라운 발전을 보여주고 있습니다. 그러나 수학, 코딩, 과학 문제 해결 등 복잡한 추론 능력은 여전히 부족한 부분으로 남아 있습니다. 기존 접근 방식은 지도 학습(Supervised Fine-tuning, SFT)에 의존하여 많은 양의 레이블이 지정된 데이터를 필요로 했는데, 이는 시간과 비용이 많이 드는 작업입니다. DeepSeek 연구팀은 SFT에 대한 의존성을 줄이고 강화학습(Reinforcement Learning, RL)을 주요 도구로 활용하여 LLM의 추론 능력을 향상시키는 새로운 방법을 제시했습니다.

2. DeepSeek R1: 순수 강화학습 기반 추론 능력 향상

DeepSeek R1은 SFT 없이 순수 RL만으로 LLM의 추론 능력을 향상시킨 최초의 공개 연구 프로젝트입니다. DeepSeek V3 Base라는 기본 LLM에 직접 RL을 적용하여 사전 추론 훈련 데이터 없이 모델이 "Think" 태그 안에 추론 과정을, "Answer" 태그 안에 답변을 작성하도록 유도했습니다.

2.1. GRPO 알고리즘과 보상 체계

DeepSeek R1은 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO) 알고리즘을 사용합니다. GRPO는 별도의 평가 모델(Critic) 없이 여러 출력 샘플을 비교하여 상대적인 점수를 기반으로 모델을 최적화합니다. 이는 계산 비용을 줄이고 효율적인 학습을 가능하게 합니다. 보상 체계는 정확도 보상과 형식 보상으로 구성되어, 정확한 답변 생성과 "Think" 및 "Answer" 태그를 준수하도록 유도합니다.

2.2. DeepSeek R10의 성과와 한계

AM 2024 벤치마크에서 DeepSeek R10은 초기 15.6%에서 71.0%까지 Pass@1 점수를 향상시켰습니다. 다수결 투표를 적용하면 86.7%까지 도달하여 OpenAI 01 09112 모델과 비슷한 성능을 보였습니다. 그러나 DeepSeek R10은 가독성 및 언어 혼합 문제를 보였습니다.

3. DeepSeek R1: 다단계 학습 파이프라인

DeepSeek R1은 DeepSeek R10의 한계를 극복하기 위해 다단계 학습 파이프라인을 도입했습니다.

3.1. 콜드 스타트 단계: 고품질 추론 데이터 확보

소량의 고품질 Chain of Thought(CoT) 데이터를 사용하여 초기 SFT를 수행합니다. 이를 통해 모델은 가독성 높은 추론 과정과 최종 요약을 생성하는 방법을 학습합니다.

3.2. 추론 지향 강화학습

콜드 스타트 단계 이후, DeepSeek R10과 유사하게 추론 지향 RL을 적용합니다. 이 단계에서는 언어 혼합을 방지하는 보상을 추가하여 사용자 친화적인 출력을 생성하도록 유도합니다.

3.3. 추가 지도 학습 및 강화학습

추론 및 일반적인 사용 사례를 포괄하는 새로운 SFT 데이터를 수집하고, 최종적으로 RL을 다시 적용하여 모델의 유용성과 안전성을 향상시킵니다.

4. DeepSeek R1의 성능 평가 및 비교

DeepSeek R1은 AM 2024, Math 500, Codeforces 등 다양한 벤치마크에서 최첨단 모델들과 경쟁력 있는 성능을 보였습니다. 특히, 수학 및 코딩 관련 작업에서 뛰어난 결과를 달성했습니다.

5. 지식 증류를 통한 경량화 모델 구축

DeepSeek R1의 추론 능력을 더 작고 효율적인 모델로 증류하는 실험을 진행했습니다. 그 결과, 14B 파라미터 모델이 32B 모델을 능가하는 등, 증류 모델들이 오픈소스 모델 중 최고 수준의 성능을 달성했습니다.

6. DeepSeek R1의 한계점 및 향후 연구 방향

DeepSeek R1은 함수 호출, 다중 대화, 복잡한 JSON 출력 생성 등에서 DeepSeek V3보다 성능이 떨어집니다. 또한 프롬프트 민감도, 다국어 지원, 소프트웨어 엔지니어링 작업에서의 성능 개선 등이 향후 연구 과제로 남아 있습니다.

7. 결론: 자율적 추론 능력 향상을 향한 도약

DeepSeek R1은 SFT에 대한 의존성을 줄이고 RL을 통해 LLM의 추론 능력을 향상시키는 새로운 가능성을 제시했습니다. 지식 증류를 통해 경량화 모델 구축에도 성공하여 실용적인 AI 개발에 기여할 것으로 기대됩니다. 향후 연구를 통해 DeepSeek R1의 한계점을 극복하고 더욱 발전된 AI 시스템 구축을 위한 토대를 마련할 것으로 예상됩니다.