반응형
아래 표는 초보자 기준으로 "무난하게 시작"하는 추천입니다. (같은 VRAM이라도 GPU 세대/드라이버/설정에 따라 체감 성능은 달라질 수 있습니다)
| NVIDIA GPU (대표 모델) | VRAM(공식 스펙) | 초보자 추천 Ollama 모델 예시(실제 모델명) | 이 조합이 잘 맞는 용도 |
|---|---|---|---|
| RTX 3060 | 12GB(또는 8GB 변형) | llama3.1:8b, qwen2.5:7b, gemma2:9b |
문서 요약/번역/일상 Q&A "로컬 LLM 입문" |
| RTX 3060 Ti | 8GB | llama3.2:3b, phi3:mini, qwen2.5:3b |
가볍게 빠른 응답(짧은 문서/챗봇) |
| RTX 4060 | 8GB | llama3.2:3b, phi3:mini, mistral:7b |
"빠른 3B~7B" 중심(속도 우선) |
| RTX 4060 Ti | 16GB 또는 8GB | (16GB면) qwen2.5:14b, gemma2:9b, llama3.1:8b |
14B급까지 욕심(개발/요약 품질) |
| RTX 4070 / 4070 SUPER | 12GB | llama3.1:8b, qwen2.5:14b, gemma2:9b |
8B 고품질 + 14B 도전(밸런스) |
| RTX 4070 Ti SUPER | 16GB | qwen2.5:14b, gemma2:27b, qwen2.5-coder:14b |
27B/코딩모델도 "현실권" |
| RTX 4090 | 24GB(대표) | qwen2.5:32b, mixtral:8x7b, gemma2:27b |
30B급/ MoE까지 본격 "로컬 워크스테이션" |
| RTX 5090 | 32GB | llama3.1:70b, qwen2.5-coder:32b, qwen2.5:72b |
70B급도 "진짜로" 굴리는 영역(고급) |
표 해설 (초보자용, 딱 이것만 기억)
1) VRAM은 "올릴 수 있는 모델 크기"를 거의 결정합니다
- Ollama 라이브러리 페이지에서 모델마다 파일 크기(GB), 파라미터(B)가 표시됩니다. 예를 들어
llama3.1:8b는 약 4.9GB로 안내됩니다. - 다만 실행 중에는 모델 파일 크기보다 VRAM을 더 씁니다. 그래서 초보자는 표처럼 VRAM 여유가 있는 구간의 모델부터 시작하는 게 실패 확률이 낮습니다.
Why it matters: VRAM이 부족하면 속도가 급격히 느려지거나(CPU로 밀림) 실행 실패가 잦아집니다. "처음부터 큰 모델"보다 "내 VRAM에 맞는 모델"이 만족도가 높습니다.
2) 가장 무난한 출발점은 보통 이렇습니다
- 8GB: 3B~7B 위주 (
llama3.2:3b,phi3:mini) - 12GB: 8B 안정권 (
llama3.1:8b) - 16GB: 14B가 현실권 (
qwen2.5:14b) - 24GB: 32B/MoE도 가능권 (
qwen2.5:32b,mixtral:8x7b) - 32GB: 70B급까지 시도 가능 (
llama3.1:70b)
Why it matters: "B(파라미터)"가 커질수록 품질이 좋아질 여지가 있지만, 내 PC에서 꾸준히 잘 도는 게 1순위입니다.
3) 너무 오래된 NVIDIA GPU면 "CUDA Compute Capability"도 확인하세요
- NVIDIA는 CUDA GPU별 Compute Capability 목록을 제공합니다.
- (예: 아주 구형 GPU는 일부 로컬 LLM 가속에서 제약이 생길 수 있습니다.)
Why it matters: VRAM이 있어도 세대/지원 범위가 맞지 않으면 GPU 가속이 제대로 안 붙을 수 있습니다.
(보너스) "내 GPU 줄만 뽑아서" 바로 실행 예시
당장 하나만 해보려면, 표에서 내 VRAM 구간을 골라 아래처럼 실행하면 됩니다:
# 8GB 급(가벼운 입문)
ollama run llama3.2:3b
# 12GB 급(밸런스)
ollama run llama3.1:8b
# 16GB 급(조금 더 고급)
ollama run qwen2.5:14b
# 24GB 급(본격)
ollama run qwen2.5:32b
TL;DR
- VRAM이 곧 "가능한 모델 크기"를 좌우합니다.
- 8GB는 3B~7B, 12GB는 8B, 16GB는 14B, 24GB는 32B, 32GB는 70B급이 출발점으로 무난합니다.
- 표의 모델명은 Ollama 라이브러리 실제 태그를 기준으로 예시를 넣었습니다.
- 오래된 GPU라면 CUDA Compute Capability도 확인하는 게 안전합니다.
결론 (요약 정리)
- 먼저
nvidia-smi로 GPU 모델/VRAM을 확인합니다. - 표에서 내 GPU 구간을 찾고 추천 Ollama 모델 1개로 시작합니다.
- 잘 돌아가면 7B -> 8B -> 14B 순으로 단계적으로 올립니다.
References
- (GeForce RTX 3060 Family Specs)[https://www.nvidia.com/en-us/geforce/graphics-cards/30-series/rtx-3060-3060ti/]
- (GeForce RTX 4060 / 4060 Ti Specs)[https://www.nvidia.com/en-us/geforce/graphics-cards/40-series/rtx-4060-4060ti/]
- (GeForce RTX 4070 Family Specs)[https://www.nvidia.com/en-us/geforce/graphics-cards/40-series/rtx-4070-family/]
- (GeForce RTX 5090 Specs)[https://www.nvidia.com/en-us/geforce/graphics-cards/50-series/rtx-5090/]
- (Ollama Library - 모델별 크기/태그)[https://ollama.com/library]
- (CUDA GPU Compute Capability)[https://developer.nvidia.com/cuda/gpus]
- (Meta Llama 3.1 발표, 2024-07-23)[https://ai.meta.com/blog/meta-llama-3-1/]
- (Meta Llama 3.2 발표, 2024-09-25)[https://ai.meta.com/blog/llama-3-2/]
- (Gemma 2 발표, 2024-06-27)[https://blog.google/technology/developers/google-gemma-2/]
- (Qwen2.5 발표, 2024-09-19)[https://qwen.ai/blog/qwen2.5/]
반응형
'AI > Technical' 카테고리의 다른 글
| Kubeflow 사용법: 설치부터 Pipelines·Trainer·KServe까지 (2) | 2026.01.08 |
|---|---|
| n8n 사용법: Docker Compose 셀프호스팅 템플릿과 운영 체크리스트 (3) | 2026.01.06 |
| n8n 사용법 실무 가이드: Webhook·스케줄·에러처리 3종 워크플로우 (4) | 2026.01.06 |
| n8n 사용법 2편: Webhook·에러처리·큐 모드로 실무 자동화 구축 (6) | 2026.01.06 |
| n8n 사용법: 워크플로 자동화 시작부터 운영·확장까지 (1) | 2026.01.05 |