AI

강화학습, LLM 추론 능력 진짜 높여주나? 한계 검증 논문 리뷰 (2025)

Royzero 2025. 11. 11. 23:55
반응형

TL;DR

  • 2025년 발표된 Tsinghua Univ. 중심의 논문은, 강화학습(RL)이 LLM의 표면적 추론 성능엔 일시적 효과가 있지만, 실제 새로운 추론 경로(Reasoning Path)를 추가하지 않음을 실험적으로 보였다.
  • pass@k(샘플 k개 중 적어도 1개 정답) 대규모 측정 결과, RL 모델은 낮은 k에서만 강점을 보이나, 높은 k에선 베이스 모델이 더 넓은 문제를 풀 수 있다.
  • 강화학습은 기존 분포 내 해결책을 더 집중해 출력할 수 있게 도와줄 뿐, 완전히 새로운 추론 능력을 창출하지 못했다.
  • 시사점: 실제로 LLM 추론능력 한계를 넘기려면 RL 기반 외의 새로운 패러다임이 필요하다.


1. 논문 주요 요약

Tsinghua Univ. 연구팀(2025)의 “Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?”은 OpenAI-o1, DeepSeek-R1 등 최신 LLM 추론모델 학습에 쓰이는 RLVR(Verifiable Reward 기반 강화학습)의 한계를 실증적으로 조명했다.

  • RLVR은 수학, 코딩 등 정답 판별이 가능한 과제에 자동화된 보상 신호를 활용
  • 표준 평가(pass@k)에서 샘플 수(k) 증가 시 RLVR이 실제로는 추론 다양성과 문제해결 범위(boundary)를 오히려 좁히고, 기존 베이스 모델의 최적 경로만을 강조
  • 실제로 모든 RLVR 정답은 베이스 모델에서 이미 얻을 수 있었던 경로임을 다수 실험을 통해 확인
  • 더 다양한 샘플링(큰 k) 상황에선 베이스 모델이 오히려 더 많은 문제를 풀 수 있음

Why it matters:
강화학습이 LLM의 정량적 정확도를 높일 수는 있지만, 질적으로 새로운 추론능력은 추가하지 않다는 한계를 명확히 했다.


2. 실험 분석 및 결과

논문 및 공식 프로젝트 페이지(https://limit-of-RLVR.github.io) 기준, 다양한 LLM 및 RL 알고리즘(math/coding/vision)에 대해 체계적 pass@k 측정을 수행.

  • 수학: Qwen-2.5, LLaMA-3.1 등 다양한 패밀리와 RL 버전 비교(예: GSM8K, MATH500, AIME24 벤치마크)
  • 코딩: RLVR 기반 CodeR1-Zero-Qwen2.5-7B 모델 vs. 원본, pass@k로 다양성/정확도 평가
  • 시각적 추론: Qwen-2.5-VL-7B로 MathVista 등 벤치마크 검증
  • RLVR은 pass@1 등 한 번에 맞추는 경우엔 강점 보이나, k를 늘려갈수록 정답 경로가 기존 베이스에 모두 포함됨
  • Base 모델은 많은 샘플링(k↑) 시 더 넓은 문제를 해결, RL 모델은 해결 범위가 오히려

Why it matters:
LLM 추론 연구에서 RL 기반 Fine-tuning이 마치 새로운 인공지능 체계를 만드는 것처럼 여겨져왔으나, 실제로는 한계가 뚜렷함을 실증했다.


3. 해석 및 한계점

  • RLVR은 기존 해법을 압축 및 정제하는 효과만 가지며, 전혀 새로운 사고경로 자체는 생성하지 않음
  • 수렴(routing bias)이 심화되며, 모델의 다양성 및 탐색능력 저하
  • 스케일업(모델 크기↑, 데이터↑, RL 환경설계 개선 등)에서 결과가 달라질 여지는 있음
  • 코드/수학/비전 등 어떤 영역에서도 이 패턴이 일관됨

Why it matters:
향후 LLM 추론 능력 연구는 단순 RL 세부 설계보다 “지금 모델이 갖지 않은 발상의 도입” 등에 초점이 맞춰져야 함을 시사.


결론

2025년 현 시점, RL 기반 강화학습은 LLM의 표면적 효율성은 개선 가능하지만, 본질적 추론능력 파괴적 확장은 불가함이 다수 실험으로 교차검증됨. “똑똑해진다”는 인상과 달리, 이미 배운 것만 잘 뽑아낼 뿐임을 명심해야 함.


References

반응형