개발 창고/AI

DeepSeek-OCR: 중국발 AI OCR 혁신 - 텍스트를 이미지로 10배 압축한 문맥 엔진

Royzero 2025. 10. 22. 22:42
반응형

TL;DR

DeepSeek AI가 2025년 10월 공개한 DeepSeek-OCR은 기존 OCR을 넘어 텍스트-이미지 변환 기반 압축 알고리즘으로 주목받고 있다.
이 모델은 텍스트를 시각화하여 최대 10배(최대 20배) 압축 효율을 달성하며, A100 GPU 한 개만으로 하루 200,000페이지 이상을 처리한다.
정확도는 97%, 오픈소스로 공개되어 HuggingFace와 GitHub에서 즉시 활용 가능하다.
이 기술은 LLM의 컨텍스트 윈도 확장메모리 효율 최적화 측면에서 획기적인 변화를 제공한다.


본문

DeepSeek-OCR의 기술 개요

DeepSeek-OCR은 중국 항저우 기반 스타트업 DeepSeek AI가 개발한 오픈소스 OCR 모델로, “Contexts Optical Compression”이라는 개념을 도입했다.
이는 문자를 단순히 읽는 OCR이 아니라, 텍스트를 이미지(비전 토큰) 형태로 변환해 훨씬 적은 토큰 수로 의미를 보존하는 혁신적인 방식이다.
DeepSeek-OCR은 DeepEncoder(3.8억 파라미터)DeepSeek3B-MoE-A570M(30억 파라미터)의 조합으로 구성된 투스테이지 구조를 가진다.

Why it matters:
이 구조는 기존 LLM의 긴 문맥 처리 한계를 극복하며, 고속·고정밀 문서 이해를 가능하게 한다.


성능 및 정확도

  • 10배 압축 시 정확도: 97% (거의 무손실 수준)
  • 20배 압축 시 정확도: 약 60% 유지
  • OmniDocBench 벤치마크: GOT-OCR 2.0(256 토큰) 대비 100 비전 토큰으로 우위, MinerU 2.0(6000 토큰) 대비 800 비전 토큰으로 상회함.

이 결과는 모델이 단순히 OCR 기능을 넘어, 비전-언어 융합형 장문 처리 엔진으로서 성능을 입증한 것이다.

Why it matters:
이와 같은 효율적 토큰 관리 방식은 LLM의 “문맥창 제한(context window limitation)”을 극적으로 완화한다.


처리 효율 및 하드웨어 요구사항

DeepSeek-OCR은 A100 GPU 한 장으로 200,000페이지/일 수준의 처리량을 보여준다.
20대 서버(8GPU 구성) 기준으로는 3,300만 페이지/일에 달하는 데이터 처리량을 달성한다.
이러한 효율성은 대규모 문서 코퍼스 생성, 기업 문서 자동화, 클라우드 기반 데이터 파이프라인에 직접적인 생산성 향상을 제공한다.

Why it matters:
단일 GPU로 고속 데이터 전처리가 가능해지면, 중소기업이나 연구기관도 초대형 모델 학습을 위한 데이터셋 구축이 현실화된다.


모델 구조 및 모드

DeepSeek-OCR은 다양한 해상도 모드를 지원한다.

모드명 해상도 비전 토큰 수 주 사용 사례
Tiny 512×512 64 간단한 문서 또는 표
Small 640×640 100 일반 문서
Gundam 다층 타일 구성 (n×640 + 1024×1024) ≤800 복잡한 신문, 과학 논문 등

Why it matters:
문서 복잡도에 맞춰 선택적 압축이 가능해, 실제 업무 워크플로우와 데이터 형식에 유연하게 적용된다.


오픈소스 및 확장성

DeepSeek-OCR은 MIT 라이선스로 GitHub과 Hugging Face에서 공개되었다.
Python, PyTorch 기반으로 손글씨, 인보이스, 표, 그리고 다국어 문서(약 100개 언어)를 처리할 수 있다.

from deepseek_ocr import DeepSeekOCR

ocr = DeepSeekOCR(model="deepseek-ai/DeepSeek-OCR")
result = ocr.recognize("sample_invoice.png")
print(result["text"])

Why it matters:
MIT 라이선스는 연구·상업환경 전반에서 자유로운 활용을 허용하여, 전 세계 AI 커뮤니티의 빠른 도입을 촉진한다.


결론 (요약 정리)

  1. DeepSeek-OCR은 기존 OCR을 넘어선 문맥 압축 AI 인프라로 자리잡았다.
  2. A100 GPU 한대당 20만 페이지 처리, 97% 정확도, 10~20배 토큰 절감이라는 성과를 검증했다.
  3. 이 기술은 LLM의 장문 문맥 한계 해소, 데이터센터 효율 향상, AI 학습비용 절감을 가속할 것이다.

References

1) DeepSeek drops open-source model that compresses text 10x through images | VentureBeat | 2025-10-21 | https://venturebeat.com/ai/deepseek-drops-open-source-model-that-compresses-text-10x-through-images
2) New Deepseek model drastically reduces resource usage | Tom’s Hardware | 2025-10-20 | https://www.tomshardware.com/tech-industry/artificial-intelligence/new-deepseek-model-drastically-reduces-resource-usage-by-converting-text-and-documents-into-images
3) DeepSeek Achieves Significant Breakthrough | 36Kr Europe | 2025-10-20 | https://eu.36kr.com/en/p/3517473609718916
4) DeepSeek-OCR: Contexts Optical Compression | arXiv | 2025-09-15 | https://arxiv.org/html/2510.18234v1
5) DeepSeek-OCR: New Open-source AI Model Goes Viral | Dataconomy | 2025-10-20 | https://dataconomy.com/2025/10/21/deepseek-ocr-new-open-source-ai-model-goes-viral-on-github

반응형