TL;DROpen LLM Leaderboard v2는 "지식 퀴즈"보다 추론·형식 준수·장문 컨텍스트·어려운 QA 쪽으로 평가축이 이동했습니다.v2 "contents" 데이터셋 기준, Average 최고치는 약 52.1이고, 특히 GPQA / MuSR 구간이 전체 평균을 끌어내리는 병목으로 보입니다(최고점 자체가 낮음).상위권에는 머지(merged)·커뮤니티 튜닝 모델이 많이 보이며, "공식 배포 모델"과 "커뮤니티/머지 모델"을 구분해서 봐야 합니다.리더보드는 "대충 좋은 모델"을 고르는 데는 강하지만, 프로덕션(비용/지연/안전/도메인 적합성) 결론을 대신해주지 않습니다.본문TOCOpen LLM Leaderboard 정의: 포함/제외/오해v2가 실제로 보는 벤치마크(6종)와 채점 축데이터로 본 추세(점..