TL;DR2025년 발표된 Tsinghua Univ. 중심의 논문은, 강화학습(RL)이 LLM의 표면적 추론 성능엔 일시적 효과가 있지만, 실제 새로운 추론 경로(Reasoning Path)를 추가하지 않음을 실험적으로 보였다.pass@k(샘플 k개 중 적어도 1개 정답) 대규모 측정 결과, RL 모델은 낮은 k에서만 강점을 보이나, 높은 k에선 베이스 모델이 더 넓은 문제를 풀 수 있다.강화학습은 기존 분포 내 해결책을 더 집중해 출력할 수 있게 도와줄 뿐, 완전히 새로운 추론 능력을 창출하지 못했다.시사점: 실제로 LLM 추론능력 한계를 넘기려면 RL 기반 외의 새로운 패러다임이 필요하다.1. 논문 주요 요약Tsinghua Univ. 연구팀(2025)의 “Does Reinforcement Learni..