AI/Technical

NVIDIA 그래픽 카드 모델(대표)별 Ollama 추천 모델 표

Royzero 2026. 1. 9. 18:40
반응형

아래 표는 초보자 기준으로 "무난하게 시작"하는 추천입니다. (같은 VRAM이라도 GPU 세대/드라이버/설정에 따라 체감 성능은 달라질 수 있습니다)

NVIDIA GPU (대표 모델) VRAM(공식 스펙) 초보자 추천 Ollama 모델 예시(실제 모델명) 이 조합이 잘 맞는 용도
RTX 3060 12GB(또는 8GB 변형) llama3.1:8b, qwen2.5:7b, gemma2:9b 문서 요약/번역/일상 Q&A "로컬 LLM 입문"
RTX 3060 Ti 8GB llama3.2:3b, phi3:mini, qwen2.5:3b 가볍게 빠른 응답(짧은 문서/챗봇)
RTX 4060 8GB llama3.2:3b, phi3:mini, mistral:7b "빠른 3B~7B" 중심(속도 우선)
RTX 4060 Ti 16GB 또는 8GB (16GB면) qwen2.5:14b, gemma2:9b, llama3.1:8b 14B급까지 욕심(개발/요약 품질)
RTX 4070 / 4070 SUPER 12GB llama3.1:8b, qwen2.5:14b, gemma2:9b 8B 고품질 + 14B 도전(밸런스)
RTX 4070 Ti SUPER 16GB qwen2.5:14b, gemma2:27b, qwen2.5-coder:14b 27B/코딩모델도 "현실권"
RTX 4090 24GB(대표) qwen2.5:32b, mixtral:8x7b, gemma2:27b 30B급/ MoE까지 본격 "로컬 워크스테이션"
RTX 5090 32GB llama3.1:70b, qwen2.5-coder:32b, qwen2.5:72b 70B급도 "진짜로" 굴리는 영역(고급)

표 해설 (초보자용, 딱 이것만 기억)

1) VRAM은 "올릴 수 있는 모델 크기"를 거의 결정합니다

  • Ollama 라이브러리 페이지에서 모델마다 파일 크기(GB), 파라미터(B)가 표시됩니다. 예를 들어 llama3.1:8b는 약 4.9GB로 안내됩니다.
  • 다만 실행 중에는 모델 파일 크기보다 VRAM을 더 씁니다. 그래서 초보자는 표처럼 VRAM 여유가 있는 구간의 모델부터 시작하는 게 실패 확률이 낮습니다.

Why it matters: VRAM이 부족하면 속도가 급격히 느려지거나(CPU로 밀림) 실행 실패가 잦아집니다. "처음부터 큰 모델"보다 "내 VRAM에 맞는 모델"이 만족도가 높습니다.


2) 가장 무난한 출발점은 보통 이렇습니다

  • 8GB: 3B~7B 위주 (llama3.2:3b, phi3:mini)
  • 12GB: 8B 안정권 (llama3.1:8b)
  • 16GB: 14B가 현실권 (qwen2.5:14b)
  • 24GB: 32B/MoE도 가능권 (qwen2.5:32b, mixtral:8x7b)
  • 32GB: 70B급까지 시도 가능 (llama3.1:70b)

Why it matters: "B(파라미터)"가 커질수록 품질이 좋아질 여지가 있지만, 내 PC에서 꾸준히 잘 도는 게 1순위입니다.


3) 너무 오래된 NVIDIA GPU면 "CUDA Compute Capability"도 확인하세요

  • NVIDIA는 CUDA GPU별 Compute Capability 목록을 제공합니다.
  • (예: 아주 구형 GPU는 일부 로컬 LLM 가속에서 제약이 생길 수 있습니다.)

Why it matters: VRAM이 있어도 세대/지원 범위가 맞지 않으면 GPU 가속이 제대로 안 붙을 수 있습니다.


(보너스) "내 GPU 줄만 뽑아서" 바로 실행 예시

당장 하나만 해보려면, 표에서 내 VRAM 구간을 골라 아래처럼 실행하면 됩니다:

# 8GB 급(가벼운 입문)
ollama run llama3.2:3b

# 12GB 급(밸런스)
ollama run llama3.1:8b

# 16GB 급(조금 더 고급)
ollama run qwen2.5:14b

# 24GB 급(본격)
ollama run qwen2.5:32b

TL;DR

  • VRAM이 곧 "가능한 모델 크기"를 좌우합니다.
  • 8GB는 3B~7B, 12GB는 8B, 16GB는 14B, 24GB는 32B, 32GB는 70B급이 출발점으로 무난합니다.
  • 표의 모델명은 Ollama 라이브러리 실제 태그를 기준으로 예시를 넣었습니다.
  • 오래된 GPU라면 CUDA Compute Capability도 확인하는 게 안전합니다.

결론 (요약 정리)

  • 먼저 nvidia-smiGPU 모델/VRAM을 확인합니다.
  • 표에서 내 GPU 구간을 찾고 추천 Ollama 모델 1개로 시작합니다.
  • 잘 돌아가면 7B -> 8B -> 14B 순으로 단계적으로 올립니다.

References

반응형