AI/Trend

DeepSeekMath-V2와 DeepSeek-OCR 3B: 오픈소스 AI의 수학적 추론 혁명

Royzero 2025. 12. 2. 23:52
반응형

TL;DR

DeepSeek AI가 2025년 11월 발표한 DeepSeekMath-V2는 오픈웨이트 수학 모델로서 IMO 2025와 CMO 2024에서 금메달 수준의 성능을 기록했으며, Putnam 2024에서 118/120점을 달성했습니다. 자기 검증 가능한 수학적 추론 능력을 갖춘 이 모델은 기존 폐쇄형 모델들을 능가합니다. 동시에 10월 공개된 DeepSeek-OCR 3B MoE는 비전-언어 모델로서 토큰을 10배 줄이면서도 97% 정확도를 유지하여 문서 AI의 패러다임을 변화시켰습니다. 두 모델 모두 MIT 라이선스 하에 완전 오픈소스로 공개되어 글로벌 AI 커뮤니티에 큰 영향을 미칠 전망입니다.


1. DeepSeekMath-V2: 올림피아드 수준의 수학적 추론

1-1. 자기 검증 가능한 수학 AI의 실현

DeepSeekMath-V2는 685B 파라미터 규모의 대규모 언어 모델로, 자기 검증형 수학적 추론이라는 새로운 패러다임을 실현했습니다. 이 모델의 핵심 혁신은 수학 증명을 생성할 뿐만 아니라 자신의 증명을 검증하고 반복 개선할 수 있다는 점입니다.

전통적인 언어모델은 생성-검증 간의 성능 격차가 모델이 강해질수록 더 벌어지는 문제가 있었습니다. DeepSeekMath-V2는 이를 해결하기 위해 검증 계산을 확장(scale verification compute) 하는 방식을 도입했습니다. 검증기를 보상 모델로 활용하면서 어려운 증명 데이터를 자동으로 라벨링하여, 검증기 성능을 지속적으로 개선하는 방식입니다.

Why it matters: 자기 검증 능력은 AI가 그 자체로 증명 과정을 평가하고 개선할 수 있다는 의미로, 이는 수학적 추론 능력의 질적 도약입니다. 인간 수학자들이 증명을 검토하고 수정하듯이, AI가 이를 자동화한 것입니다.


1-2. 벤치마크 성능: 인간 최고점을 초과

DeepSeekMath-V2의 성능은 국제 수학 올림피아드 기준으로 평가되었습니다:

벤치마크 DeepSeekMath-V2 Gemini 2.5 Pro GPT-5 Thinking High 특징
IMO 2025 금메달 (6문제 중 5문제 해결) - - 현재 연도 올림피아드
CMO 2024 완전 해결 4문제 낮음 낮음 중국 수학 올림피아드
Putnam 2024 118/120점 - - 인간 최고점: 90점
IMO ProofBench 기초 99.0% - - 증명 정확도
CNML 91문항 최고 평균 증명 점수 - - 중국 국가 수학 올림피아드

특히 주목할 점은 Putnam 2024에서 인간 최고점(90점)을 크게 초과한 118/120점을 달성했다는 것입니다. 이는 AI가 단순히 수학 문제를 푸는 것을 넘어 경쟁 수준의 정형적 수학 증명을 수행할 수 있음을 증명합니다.

Why it matters: 올림피아드급 수학 증명은 복합적인 논리 구조, 창의적인 접근법, 엄밀한 형식화를 요구하는 최고 난이도의 작업입니다. 이를 달성한 것은 AI의 일반적 추론 능력이 급속도로 발전하고 있음을 시사합니다.


1-3. 핵심 기술: GRPO와 수학 데이터 파이프라인

DeepSeekMath-V2의 성능을 뒷받침하는 두 가지 핵심 기술이 있습니다:

1) 정교한 수학 데이터 선택 파이프라인

  • Common Crawl에서 1200억 개의 수학 관련 토큰 수집
  • OpenWebMath를 시드 코퍼스로 사용한 fastText 기반 필터링
  • 벤치마크 오염 방지를 위해 GSM8K, MATH, CMATH 등의 문제 제외
  • 품질이 낮은 콘텐츠를 자동으로 필터링하여 고급 수학 데이터만 선별

2) GRPO(Group Relative Policy Optimization)

GRPO는 전통적인 PPO(근접 정책 최적화)의 변형으로, 메모리 효율성을 유지하면서 강화 학습의 성능을 극대화합니다. 각 질문에 대해 64개 샘플을 생성한 후, 그룹 내 출력의 상대적 보상을 기반으로 학습함으로써 수학적 추론 능력을 점진적으로 향상시킵니다.

Why it matters: 데이터 품질과 훈련 효율성의 개선은 같은 규모의 모델에서도 성능 차이를 크게 만듭니다. 이는 오픈소스 모델도 폐쇄형 모델과 경쟁할 수 있는 방법을 보여줍니다.


1-4. 오픈소스 커뮤니티의 의미

DeepSeekMath-V2는 완전 오픈웨이트로 공개되어 연구자와 개발자들이 직접 접근, 검증, 개선할 수 있습니다. 이는 다음과 같은 영향을 미칩니다:

  • 재현성 보장: 학계와 산업에서 독립적으로 결과 검증 가능
  • 미세 조정 기회: 특정 도메인의 수학 문제 해결에 맞춰 재훈련 가능
  • 이론 발전: 자기 검증 수학적 추론에 대한 추가 연구 가능
  • 경쟁 가속화: 폐쇄형 모델 제공자들의 혁신 속도 상향

2. DeepSeek-OCR 3B MoE: 문서 AI의 패러다임 전환

2-1. 컨텍스트 광학 압축(Context Optical Compression)

DeepSeek-OCR은 기존 OCR의 패러다임을 근본적으로 전환합니다. 텍스트를 텍스트로 처리하지 않고, 이미지로 렌더링한 후 시각 정보로 압축하는 방식을 채택했습니다.

기존 접근방식의 문제점:

  • 긴 문서를 텍스트로 직접 입력하면 토큰이 기하급수적으로 증가
  • 100K 토큰 이상의 긴 문서는 지연시간과 메모리 문제 야기
  • 클라우드 API 비용이 선형 또는 초과 선형으로 증가

DeepSeek-OCR의 해결책:

  • 문서 이미지를 시각 토큰으로 압축 (7-20배 압축 달성)
  • 최소 손실(97% 정확도 유지)로 정보 보존
  • 표준 하드웨어에서 대규모 문서 처리 가능

Why it matters: 문서 처리는 기업의 핵심 AI 애플리케이션 중 하나입니다. 토큰을 10배 줄이면서도 정확도를 유지한다는 것은 비용과 속도, 정확성 모두에서 획기적인 개선을 의미합니다.


2-2. 기술 아키텍처: 두 단계 설계

DeepSeek-OCR은 두 개의 핵심 컴포넌트로 구성됩니다:

1) DeepEncoder (비전 인코더)

  • SAM-base(Segment Anything Model)를 기반으로 한 로컬 비전 모듈
  • 윈도우 어텐션으로 세밀한 영역 인식 수행
  • 16배 합성곱 다운샘플러로 이미지 토큰 대폭 감소 (4096개 → 256개)
  • CLIP-large 기반 글로벌 비전 모듈으로 전체 이미지 이해
  • 1024×1024 고해상도 문서를 256개 잠재 토큰으로 인코딩 가능

2) DeepSeek-3B-MoE (디코더)

  • 3B 파라미터 규모의 Mixture-of-Experts 모델
  • 64개의 전문가(expert) 서브네트워크 중 6개만 활성화
  • 토큰당 약 5억 7천만(570M) 개의 활성 파라미터만 사용
  • 효율적인 전문가 라우팅으로 대형 모델의 용량을 유지하면서 소형 모델의 속도 달성

다중 해상도 모드 (Tiny, Small, Base, Large, Gundam)

개발자가 속도와 정확도를 트레이드오프할 수 있도록 설계:

모드 입력 해상도 토큰 수 용도
Tiny 512×512 64 빠른 스캔
Small 640×640 100 일반 문서
Base 1024×1024 256 복잡한 문서
Large 1280×1280 400 최대 품질
Gundam 타일링 + 글로벌 256~400+ 초대형 문서

Why it matters: 다중 해상도 설계는 실제 운영 환경에서 필요한 유연성을 제공합니다. GPU 용량, 지연시간 요구사항, 정확도 필요도에 따라 최적의 설정을 선택할 수 있습니다.


2-3. 혁신적 훈련 방식

두 단계 훈련 파이프라인

  • Stage 1: DeepEncoder를 독립적으로 훈련

    • 이미지-텍스트 쌍 데이터로 비전 토큰을 언어 토큰 공간으로 매핑
    • OCR 기능의 기초 확립
  • Stage 2: 전체 시스템 공동 훈련

    • 이미지 문서 입력 (디코더는 텍스트 출력 학습)
    • 정상 텍스트 입력 (언어 능력 유지)
    • 멀티모달 능력과 언어 능력의 균형 유지

대규모 훈련 인프라

  • 160개의 A100 GPU (20노드 × 8GPU)
  • 하루 최대 90B 토큰/일 처리량 (텍스트 전용) 및 70B 토큰/일 (멀티모달)
  • 수 조 단위의 토큰으로 훈련하여 다양한 문서 형식과 언어에 대한 강건성 확보

Why it matters: 대규모 훈련을 통해 다양한 현실 문서의 복잡성을 처리할 수 있는 능력을 갖춘 모델이 나올 수 있습니다. 이는 단순 텍스트 추출을 넘어 복잡한 레이아웃 이해를 가능하게 합니다.


2-4. 성능 비교: 클라우드 OCR vs 오픈소스

항목 Google Cloud Vision Amazon Textract DeepSeek-OCR 3B
라이선스 독점 독점 MIT (오픈소스)
배포 클라우드 API 클라우드 API 자체 호스팅 가능
비용 모델 이미지당 요금 페이지당 요금 무료 (GPU 비용 제외)
토큰 효율성 1배 (기준) 1배 (기준) 10배 압축
정확도 ~98% ~97% 97%
제어 수준 제한적 제한적 완전 제어 및 미세 조정
확장성 제한 API 레이트 제한 API 레이트 제한 GPU 능력에만 제한

Why it matters: 오픈소스 모델의 등장으로 기업과 개발자는 더 이상 대형 클라우드 제공자에 종속되지 않아도 됩니다. 비용, 지연시간, 확장성 모든 면에서 우위를 갖춘 대안을 선택할 수 있습니다.


2-5. 산업 영향 및 오픈소스 민주화

DeepSeek-OCR은 MIT 라이선스로 완전 공개되어 다음과 같은 변화를 주도합니다:

비용 장벽 제거:

  • 클라우드 API 구독료 없음
  • 개발자가 GPU를 소유하면 무료 배포 가능
  • 기업은 대규모 문서 처리 시 비용 절감

접근성 개선:

  • 스타트업과 개인 개발자도 엔터프라이즈급 기능 활용 가능
  • 오프라인 배포 가능으로 데이터 보안 강화
  • 커스터마이제이션과 미세 조정 자유도 증가

커뮤니티 혁신 촉발:

  • 최적화된 버전 개발
  • 대형 후속 모델 (16B, 27B MoE) 개발 기대
  • 오픈소스 OCR 파이프라인 및 UI 도구와의 통합 가능

Why it matters: 오픈소스 VLM의 급격한 발전은 폐쇄형 기업 AI 서비스의 독점을 깨뜨리고 있습니다. Tesseract(오픈소스 OCR), Stable Diffusion(이미지 생성)이 했듯이, DeepSeek-OCR도 그 분야의 기준을 재정의할 것으로 예상됩니다.


2-6. 기술 리더들의 평가

AI 연구자 Andrej Karpathy는 DeepSeek-OCR의 접근방식에 주목했습니다:

"이미지 입력이 텍스트 토큰보다 더 효율적이고 표현력 있을 수 있습니다. 한 이미지 패치는 여러 문자를 인코딩할 수 있으며, 이미지는 텍스트가 잃어버리는 포맷, 폰트, 레이아웃을 본래 포함합니다."

이는 향후 대형언어모델이 "텍스트 토큰" 대신 "이미지 토큰"을 기본 입력으로 사용하는 새로운 방향성을 시사합니다.


3. 오픈소스 AI 생태계에 미치는 영향

3-1. DeepSeek의 오픈소스 리더십

DeepSeek은 이전에도 DeepSeek-VL2 시리즈 (3B, 16B, 27B MoE)를 오픈소스로 공개하여 선구적인 역할을 해왔습니다. 이제 수학 모델과 OCR 모델까지 완전 공개함으로써 오픈소스 AI의 민주화를 주도하고 있습니다.

3-2. 동-서방 기술 격차 축소

중국의 기술랩들이 오픈소스 모델과 데이터셋을 지속적으로 공개하면서, 서방의 대형 기술 회사들이 장악했던 고성능 AI 분야의 격차가 빠르게 축소되고 있습니다. 이는 전 세계 개발자와 연구자들에게 혜택을 줍니다.

3-3. 폐쇄형 기업 AI의 전략 변화

DeepSeek의 오픈소스 릴리스는 기존 기업 AI 서비스 제공자들을 압박하고 있습니다:

  • Meta: Segment Anything 및 일부 비전 모델 오픈소스화
  • OpenAI: 소형 모델 오픈소스화 검토
  • 주요 기업: 오픈소스 하이브리드 전략으로의 전환

Why it matters: 오픈소스와 폐쇄형의 경계가 흐려지면서, 기업들은 더 이상 모든 것을 비공개로 유지할 수 없습니다. 투명성과 신뢰는 새로운 경쟁 요소가 되었습니다.


결론

DeepSeekMath-V2DeepSeek-OCR 3B MoE는 각각 수학 추론과 문서 처리 분야에서 오픈소스 AI의 실현 가능성을 증명했습니다.

DeepSeekMath-V2는 자기 검증 가능한 수학적 추론이 실현 가능한 방향임을 보여주면서, 국제 올림피아드 수준의 증명을 생성하는 능력을 갖추었습니다. 이는 단순히 벤치마크 숫자가 아니라, AI가 복합적이고 엄밀한 논리 구조를 다룰 수 있음을 의미합니다.

DeepSeek-OCR은 컨텍스트 광학 압축이라는 혁신적 기술로 토큰 효율성과 정확도 사이의 균형을 달성했습니다. MIT 라이선스 공개는 비용 장벽과 접근 장벽을 동시에 제거하여 개발자들에게 엔터프라이즈급 OCR 기능을 제공합니다.

두 모델의 공개는 단순한 기술 진보를 넘어 오픈소스 AI의 새로운 시대를 상징합니다. Tesseract와 Stable Diffusion이 각각의 분야를 민주화했듯이, DeepSeek의 모델들은 수학과 문서 처리 AI의 통상을 바꾸고 있습니다. 향후 12개월은 이들 모델 위에 구축된 파생 프로젝트, 최적화 버전, 통합 솔루션들이 급증할 가능성이 높습니다.


References

반응형