NVIDIA 그래픽 카드 모델(대표)별 Ollama 추천 모델 표

AI/Technical

NVIDIA 그래픽 카드 모델(대표)별 Ollama 추천 모델 표

Royzero 2026. 1. 9. 18:40

MYVOCA for Android

단어 암기를 쉽고 효과적으로 도와주는 어플리케이션입니다.

아래 표는 초보자 기준으로 "무난하게 시작"하는 추천입니다. (같은 VRAM이라도 GPU 세대/드라이버/설정에 따라 체감 성능은 달라질 수 있습니다)

NVIDIA GPU (대표 모델)	VRAM(공식 스펙)	초보자 추천 Ollama 모델 예시(실제 모델명)	이 조합이 잘 맞는 용도
RTX 3060	12GB(또는 8GB 변형)	`llama3.1:8b`, `qwen2.5:7b`, `gemma2:9b`	문서 요약/번역/일상 Q&A "로컬 LLM 입문"
RTX 3060 Ti	8GB	`llama3.2:3b`, `phi3:mini`, `qwen2.5:3b`	가볍게 빠른 응답(짧은 문서/챗봇)
RTX 4060	8GB	`llama3.2:3b`, `phi3:mini`, `mistral:7b`	"빠른 3B~7B" 중심(속도 우선)
RTX 4060 Ti	16GB 또는 8GB	(16GB면) `qwen2.5:14b`, `gemma2:9b`, `llama3.1:8b`	14B급까지 욕심(개발/요약 품질)
RTX 4070 / 4070 SUPER	12GB	`llama3.1:8b`, `qwen2.5:14b`, `gemma2:9b`	8B 고품질 + 14B 도전(밸런스)
RTX 4070 Ti SUPER	16GB	`qwen2.5:14b`, `gemma2:27b`, `qwen2.5-coder:14b`	27B/코딩모델도 "현실권"
RTX 4090	24GB(대표)	`qwen2.5:32b`, `mixtral:8x7b`, `gemma2:27b`	30B급/ MoE까지 본격 "로컬 워크스테이션"
RTX 5090	32GB	`llama3.1:70b`, `qwen2.5-coder:32b`, `qwen2.5:72b`	70B급도 "진짜로" 굴리는 영역(고급)

표 해설 (초보자용, 딱 이것만 기억)

1) VRAM은 "올릴 수 있는 모델 크기"를 거의 결정합니다

Ollama 라이브러리 페이지에서 모델마다 파일 크기(GB), 파라미터(B)가 표시됩니다. 예를 들어 llama3.1:8b는 약 4.9GB로 안내됩니다.
다만 실행 중에는 모델 파일 크기보다 VRAM을 더 씁니다. 그래서 초보자는 표처럼 VRAM 여유가 있는 구간의 모델부터 시작하는 게 실패 확률이 낮습니다.

Why it matters: VRAM이 부족하면 속도가 급격히 느려지거나(CPU로 밀림) 실행 실패가 잦아집니다. "처음부터 큰 모델"보다 "내 VRAM에 맞는 모델"이 만족도가 높습니다.

2) 가장 무난한 출발점은 보통 이렇습니다

8GB: 3B~7B 위주 (llama3.2:3b, phi3:mini)
12GB: 8B 안정권 (llama3.1:8b)
16GB: 14B가 현실권 (qwen2.5:14b)
24GB: 32B/MoE도 가능권 (qwen2.5:32b, mixtral:8x7b)
32GB: 70B급까지 시도 가능 (llama3.1:70b)

Why it matters: "B(파라미터)"가 커질수록 품질이 좋아질 여지가 있지만, 내 PC에서 꾸준히 잘 도는 게 1순위입니다.

3) 너무 오래된 NVIDIA GPU면 "CUDA Compute Capability"도 확인하세요

NVIDIA는 CUDA GPU별 Compute Capability 목록을 제공합니다.
(예: 아주 구형 GPU는 일부 로컬 LLM 가속에서 제약이 생길 수 있습니다.)

Why it matters: VRAM이 있어도 세대/지원 범위가 맞지 않으면 GPU 가속이 제대로 안 붙을 수 있습니다.

(보너스) "내 GPU 줄만 뽑아서" 바로 실행 예시

당장 하나만 해보려면, 표에서 내 VRAM 구간을 골라 아래처럼 실행하면 됩니다:

# 8GB 급(가벼운 입문)
ollama run llama3.2:3b

# 12GB 급(밸런스)
ollama run llama3.1:8b

# 16GB 급(조금 더 고급)
ollama run qwen2.5:14b

# 24GB 급(본격)
ollama run qwen2.5:32b

TL;DR

VRAM이 곧 "가능한 모델 크기"를 좌우합니다.
8GB는 3B~7B, 12GB는 8B, 16GB는 14B, 24GB는 32B, 32GB는 70B급이 출발점으로 무난합니다.
표의 모델명은 Ollama 라이브러리 실제 태그를 기준으로 예시를 넣었습니다.
오래된 GPU라면 CUDA Compute Capability도 확인하는 게 안전합니다.

결론 (요약 정리)

먼저 nvidia-smi로 GPU 모델/VRAM을 확인합니다.
표에서 내 GPU 구간을 찾고 추천 Ollama 모델 1개로 시작합니다.
잘 돌아가면 7B -> 8B -> 14B 순으로 단계적으로 올립니다.

References

(GeForce RTX 3060 Family Specs)[https://www.nvidia.com/en-us/geforce/graphics-cards/30-series/rtx-3060-3060ti/]
(GeForce RTX 4060 / 4060 Ti Specs)[https://www.nvidia.com/en-us/geforce/graphics-cards/40-series/rtx-4060-4060ti/]
(GeForce RTX 4070 Family Specs)[https://www.nvidia.com/en-us/geforce/graphics-cards/40-series/rtx-4070-family/]
(GeForce RTX 5090 Specs)[https://www.nvidia.com/en-us/geforce/graphics-cards/50-series/rtx-5090/]
(Ollama Library - 모델별 크기/태그)[https://ollama.com/library]
(CUDA GPU Compute Capability)[https://developer.nvidia.com/cuda/gpus]
(Meta Llama 3.1 발표, 2024-07-23)[https://ai.meta.com/blog/meta-llama-3-1/]
(Meta Llama 3.2 발표, 2024-09-25)[https://ai.meta.com/blog/llama-3-2/]
(Gemma 2 발표, 2024-06-27)[https://blog.google/technology/developers/google-gemma-2/]
(Qwen2.5 발표, 2024-09-19)[https://qwen.ai/blog/qwen2.5/]

저작자표시 비영리 변경금지 (새창열림)

'AI > Technical' 카테고리의 다른 글

Kubeflow 사용법: 설치부터 Pipelines·Trainer·KServe까지 (2)	2026.01.08
n8n 사용법: Docker Compose 셀프호스팅 템플릿과 운영 체크리스트 (3)	2026.01.06
n8n 사용법 실무 가이드: Webhook·스케줄·에러처리 3종 워크플로우 (4)	2026.01.06
n8n 사용법 2편: Webhook·에러처리·큐 모드로 실무 자동화 구축 (6)	2026.01.06
n8n 사용법: 워크플로 자동화 시작부터 운영·확장까지 (1)	2026.01.05

현재글NVIDIA 그래픽 카드 모델(대표)별 Ollama 추천 모델 표

llm, Kubernetes, 프로그래머스, Java, 안드로이드, programmers, openAI, ai, 코틀린, Android, IOS, 코딩테스트, linux, Kotlin, 자바, 리눅스, DevOps, SwiftUI, 쿠버네티스, 로이팩토리,

Today :
Yesterday :

Royfactory