TL;DR
CPU, GPU, TPU는 서로 다른 작업에 최적화된 프로세서다. CPU는 일반적인 작업에 다재다능하게 대응하는 반면, GPU는 병렬 연산에 강해 딥러닝 훈련에 사용되고, TPU는 구글이 개발한 AI 전용 칩으로 행렬 연산에 특화되어 있다. TPU는 추론 작업에서 최대 4배 뛰어난 성능 대비 가격을 제공하며, 에너지 효율에서도 GPU 대비 60-65% 적은 전력을 소비한다. 각 프로세서는 용도에 따라 최적의 선택이 결정되므로, 워크로드의 성격을 이해하는 것이 중요하다.
본문
1. CPU(중앙처리장치): 다목적의 뇌
CPU는 컴퓨터의 중추신경계로, 거의 모든 계산과 제어 작업을 담당한다. 현대 CPU는 일반적으로 4~64개의 코어를 가지고 있으며, 서버급 프로세서는 128개 이상의 코어를 탑재하기도 한다.
CPU의 핵심 특징
CPU의 가장 큰 장점은 순차 처리(Sequential Processing)에 최적화되어 있다는 점이다. 각 코어는 높은 클록 속도(3~5GHz)를 유지하면서 하나의 명령을 매우 빠르게 실행한다. 이는 분기 예측(Branch Prediction)과 고도의 제어 유닛을 통해 가능하다. 또한 CPU는 L1, L2, L3 캐시의 계층적 메모리 구조를 갖추어 낮은 지연시간(Low Latency)을 보장한다.
CPU의 또 다른 중요한 특징은 다목적성(Versatility)이다. 운영체제 관리, 데이터베이스 쿼리, 복잡한 논리 연산 등 다양한 작업을 효율적으로 처리할 수 있다. 이는 일반적인 소비자 디바이스부터 엔터프라이즈 서버까지 CPU가 광범위하게 사용되는 이유다.
Why it matters: CPU의 저지연성과 다목적성은 운영 시스템, 웹 서버, 일반 애플리케이션이 신뢰성 있게 동작하는 데 필수적이다. 특히 UI 렌더링, 실시간 분석, 금융 거래 등 응답성이 중요한 작업에서 CPU의 중요성은 무시할 수 없다.
2. GPU(그래픽스처리장치): 병렬 연산의 강자
GPU는 원래 3D 그래픽 렌더링을 위해 개발되었지만, 오늘날 딥러닝과 과학 연산의 핵심 가속기로 자리 잡았다.
GPU의 아키텍처와 성능
GPU는 수천 개의 작은 코어를 가진 대규모 병렬 프로세서다. 예를 들어 NVIDIA의 고급 데이터센터 GPU인 H100은 약 6,000개 이상의 CUDA 코어를 탑재하고 있으며, 메모리 대역폭은 3.355 TB/s에 달한다. 반면 A100의 메모리 대역폭은 1.555 TB/s이다.
GPU가 병렬 연산에 강한 이유는 SIMD(Single Instruction, Multiple Data) 아키텍처를 채택했기 때문이다. 동일한 명령이 여러 데이터 포인트에 동시에 적용되므로, 행렬 연산과 이미지 처리 같은 데이터 집약적 작업에서 뛰어난 성능을 발휘한다.
GPU의 메모리 구조도 특이하다. CPU가 캐시에 많은 트랜지스터를 할애하는 반면, GPU는 계산 코어에 대부분의 트랜지스터를 할애한다. 대신 메모리 지연에 대한 높은 허용도를 가지며, 이를 통해 지연 시간을 극복하고 병렬성을 극대화한다.
현대 GPU의 메모리 기술
고성능 GPU들은 HBM(High Bandwidth Memory) 또는 HBM3e 같은 고대역폭 메모리를 사용한다. HBM은 1024비트 인터페이스를 지원하여 GDDR6(256비트)보다 훨씬 더 높은 대역폭을 제공한다. 예를 들어 H200의 메모리 대역폭은 약 4.89 TB/s에 달한다.
Why it matters: GPU의 병렬 처리 능력은 현대 AI 시대에 필수다. 대규모 언어 모델(LLM) 훈련, 이미지 생성, 추천 시스템 등 거의 모든 딥러닝 작업이 GPU의 높은 처리량에 의존한다.
3. TPU(텐서처리장치): AI 전용 칩의 혁신
TPU는 구글이 개발한 ASIC(Application-Specific Integrated Circuit)로, 머신러닝 작업, 특히 행렬 연산에 특화된 칩이다.
TPU의 핵심 아키텍처: 시스톨릭 어레이(Systolic Array)
TPU의 가장 중요한 특징은 시스톨릭 어레이 아키텍처다. 이는 데이터가 칩의 처리 요소 격자를 리듬감 있게 흘러가는 구조로, 메모리 접근 횟수를 줄이면서 효율성을 극대화한다. 각 TPU에는 MXU(Matrix Multiply Unit)라 불리는 행렬 곱셈 단위가 있으며, TPU v6e의 경우 256×256 곱셈-누산(MAC) 어레이를 갖추고 있다.
구체적으로 TPU v6e는 칩당 918 TFLOPs(bfloat16 기준)의 성능을 제공하는데, 이는 TPU v5e의 197 TFLOPs에 비해 4.7배 향상된 수치다.
TPU의 정밀도 최적화: bfloat16
TPU는 bfloat16(Brain Float 16) 포맷을 기본으로 지원한다. bfloat16은 FP32의 범위를 유지하면서 비트 수를 줄인 형식으로, FP32 대비 메모리 용량을 절반으로 줄이면서 처리 속도를 2배 높이고 정확도 손실은 거의 없다.
메모리 계층과 대역폭
TPU v6e는 칩당 32GB의 HBM 메모리와 1600 GBps의 대역폭을 제공한다. 더욱 주목할 점은 TPU Pod 내 칩 간 상호연결(ICI, Inter-Chip Interconnect) 대역폭인데, v6e의 경우 칩당 13 TB/s에 달한다. 이는 일반적인 이더넷(50 GB/s)보다 훨씬 높아, 대규모 분산 훈련에서 네트워크 병목 현상을 크게 완화한다.
TPU 세대의 진화
- TPU v5e: 197 TFLOPs, 16GB HBM, 400 GBps ICI
- TPU v6e(Trillium): 918 TFLOPs(4.7배 향상), 32GB HBM, 800 GBps ICI
- TPU Ironwood(v7): 4x 속도 향상, 9,216개 칩까지 확장 가능, 42.5 ExaFLOPs 피크 성능
Why it matters: TPU의 전문화된 설계는 추론 작업에서 H100 GPU 대비 4배 뛰어난 성능 대비 가격을 제공한다. 특히 에너지 효율 측면에서 GPU보다 60-65% 적은 전력을 소비하므로, 대규모 추론 서비스를 운영하는 기업의 운영 비용을 획기적으로 절감할 수 있다.
4. CPU vs GPU vs TPU: 성능 비교
성능 벤치마크
원세대 TPU와 당시 최신 GPU/CPU를 비교한 구글의 연구에서, TPU는 추론 작업에서 평균적으로 CPU 또는 GPU보다 15~30배 빠른 성능을 보였다. TOPS/Watt 효율에서는 30~80배 우수했다.
현재 세대에서는 다음과 같은 비교가 가능하다:
| 항목 | CPU | GPU(H100) | TPU(v6e) |
|---|---|---|---|
| 피크 성능(bfloat16) | ~50 TFLOPs | ~1,400 TFLOPs | 918 TFLOPs |
| 메모리 대역폭 | ~100 GB/s | 3,355 TB/s | 1,600 GB/s |
| 에너지 효율(TOPS/Watt) | 기준 | 보통 | 60-65% 저감 |
| 추론 성능 대비 가격 | 낮음 | 기준 | 4배 우수 |
| 지연시간 | 매우 낮음 | 중간 | 낮음 |
MLPerf 벤치마크(추론 기준)
Google의 최신 데이터에 따르면, TPU v5e는 9개 추론 카테고리 중 8개에서 1위를 기록했다. BERT 모델 제공에서 A100 GPU보다 2.8배 빠른 성능을 보였다.
Why it matters: 벤치마크 수치는 선택의 기준이 된다. TPU는 추론 위주의 대규모 서빙에 최적이고, GPU는 훈련과 연구에 여전히 우월하며, CPU는 일반 시스템 관리에 필수적이다.
5. 아키텍처 심화: 왜 다를까?
CPU의 순차 처리 최적화
CPU 코어의 고급 제어 유닛과 분기 예측기는 복잡한 제어 흐름을 매우 효율적으로 처리한다. 캐시는 작지만 매우 빠르며, 이를 통해 저지연시간을 유지한다. 반면 이러한 복잡성은 코어 수를 제한한다.
GPU의 대규모 병렬화
GPU는 제어 유닛을 단순화하고 계산 코어를 극대화했다. 모든 코어가 동일한 명령을 실행하는 SIMT(Single Instruction, Multiple Threads) 모델을 채택하면서 에너지 효율과 처리량을 극대화했다.
TPU의 데이터플로우 최적화
TPU의 시스톨릭 어레이는 CPU와 GPU와 전혀 다른 접근이다. 데이터가 칩을 흘러 내려가며 각 처리 요소에서 처리되고, 결과는 다음 요소로 전달된다. 이 구조에서 메모리 접근은 최소화되고, 에너지 효율은 극대화된다.
Why it matters: 각 아키텍처의 설계 철학은 그것이 해결하려는 문제를 명확히 드러낸다. CPU는 복잡한 제어, GPU는 높은 처리량, TPU는 행렬 연산 효율을 우선한다.
6. 에너지 효율과 확장성
전력 소비 비교
CPU는 작업의 성격에 따라 동적 전압·주파수 조정(DVFS)으로 전력을 관리한다. 고급 게이밍 GPU는 부하 시 수백 와트를 소비한다.
반면 TPU는 설계부터 에너지 효율을 우선했다. 구글의 Ironwood(v7) TPU는 전세대 Trillium(v6)보다 2배 우수한 성능 대비 와트를 제공한다. 나아가 전체 계산 시간 대비 30배 뛰어난 에너지 효율을 자랑한다.
확장성
GPU는 NVLink나 NVSwitch를 통해 수백 개까지 확장할 수 있다. 반면 TPU Pod는 최대 9,216개 칩까지 확장 가능하며, 커스텀 인터커넥트를 통해 거의 선형에 가까운 확장성을 제공한다. 이는 대규모 분산 훈련에서 통신 오버헤드를 극적으로 감소시킨다.
Why it matters: 에너지 효율과 확장성은 대규모 AI 서비스의 운영 비용과 직결된다. 수천 개의 칩을 운영할 때, 1%의 효율 개선도 수백만 달러의 절감으로 이어진다.
7. 실제 활용 사례: 어떤 칩을 선택할까?
CPU가 최적인 경우
- 웹 브라우징, 오피스 애플리케이션
- 데이터베이스 서버, 메시지 브로커
- 운영체제, 펌웨어 실행
- 실시간 제어 시스템
GPU가 최적인 경우
- 딥러닝 모델 훈련(특히 다양한 아키텍처 실험)
- 3D 렌더링, 게임 엔진
- 과학 시뮬레이션, 유전학 분석
- 다목적 AI 연구 환경
TPU가 최적인 경우
- 대규모 언어 모델(LLM) 훈련 및 서빙
- 고정된 아키텍처의 추론 서비스
- 비용 민감한 추론 배포
- 단백질 구조 예측(AlphaFold)
- 검색·광고 랭킹 시스템
산업 사례
구글은 자사의 Gemini 모델 훈련에 TPU v6e를 사용하고 있다. Midjourney는 NVIDIA GPU에서 Google TPU로 전환한 후 추론 비용을 65% 절감했다. Meta는 LLaMA 학습에 NVIDIA GPU를 사용하는 등 각 조직이 자신의 요구에 맞는 선택을 하고 있다.
Why it matters: 정확한 선택은 개발 생산성, 운영 비용, 모델 성능에 직접적인 영향을 미친다.
8. 하이브리드 전략: 최고의 선택은?
현대 AI 산업은 하이브리드 접근을 권장한다:
- 개발 및 실험: GPU(유연성, 다양한 프레임워크 지원)
- 대규모 훈련: TPU 또는 전문화된 가속기(효율성)
- 프로덕션 추론: TPU(비용 효율) 또는 GPU(유연성 필요 시)
- 일반 서버: CPU(다목적성)
이러한 전략을 통해 개발 속도와 운영 효율을 모두 확보할 수 있다.
결론
CPU, GPU, TPU는 각각 다른 계산 문제를 해결하기 위해 진화한 프로세서들이다. CPU의 저지연 순차 처리는 운영 시스템 관리와 복잡한 논리 연산에 필수적이고, GPU의 대규모 병렬 처리는 데이터 중심의 과학 연산과 딥러닝 훈련을 가능하게 했으며, TPU의 시스톨릭 어레이 설계는 AI 추론 서비스의 비용을 획기적으로 낮췄다.
2024년 현재 AI 시대에서는 단일 프로세서 선택보다 워크로드의 성격에 따른 최적화 선택이 핵심이다. 대규모 언어 모델의 등장으로 추론 비용이 급등하면서, TPU 같은 특화 칩의 가치는 더욱 높아지고 있다. 미래 AI 인프라는 CPU의 안정성, GPU의 유연성, TPU의 효율성을 모두 활용하는 방향으로 나아갈 것으로 예상된다.
References
- (CPU vs GPU vs TPU: Understanding the difference b/w them, 2020-10-16)[https://zenocloud.com/cpu-vs-gpu-vs-tpu/]
- (What is a Tensor Processing Unit(TPU)?, 2025-12-02)[https://www.geeksforgeeks.org/blogs/what-is-tpu-tensor-processing-unit/]
- (Difference between CPU and GPU, 2019-06-05)[https://www.geeksforgeeks.org/computer-organization-architecture/difference-between-cpu-and-gpu/]
- (CPU vs GPU vs TPU vs NPU: What Are the Key Differences?, 2024-08-11)[https://www.seeedstudio.com/blog/2024/08/12/cpu-vs-gpu-vs-tpu-vs-npu/]
- (What is a tensor processing unit (TPU)?, 2024-07-15)[https://www.techtarget.com/whatis/definition/tensor-processing-unit-TPU]
- (GPU Use Cases, 2024-11-17)[https://www.datacamp.com/blog/cpu-vs-gpu]
- (Understanding TPUs vs GPUs in AI: A Comprehensive Guide, 2024-05-29)[https://www.datacamp.com/blog/tpu-vs-gpu-ai]
- (Tensor Processing Unit)[http://ael.chungbuk.ac.kr/lectures/lecture_notes/tensor-processing-unit.pdf]
- (CPU vs. GPU: What's the Difference?, 2025-01-21)[https://www.cdw.com/content/cdw/en/articles/hardware/cpu-vs-gpu.html]
- (Why Single-Core CPU Performance Still Matters, 2024-12-19)[https://www.origen.co/insights/why-single-core-cpu-performance-still-matters-284]
- (TPU v5e, 2025-12-14)[https://docs.cloud.google.com/tpu/docs/v5e]
- (NVIDIA GPU Architecture, 2025-11-10)[https://wolfadvancedtechnology.com/nvidia-gpu-architecture/]
- (GPU Memory Bandwidth and Its Impact on Performance, 2025-08-04)[https://www.digitalocean.com/community/tutorials/gpu-memory-bandwidth]
- (TPU v6e, 2025-12-14)[https://docs.cloud.google.com/tpu/docs/v6e]
- (Google TPU v6e vs GPU: 4x Better AI Performance Per Dollar Guide, 2025-11-30)[https://introl.com/blog/google-tpu-v6e-vs-gpu-4x-better-ai-performance-per-dollar-guide]
- (NVIDIA Data Center GPU Specs: A Complete Comparison, 2025-12-14)[https://intuitionlabs.ai/articles/nvidia-data-center-gpu-specs]
- (TPU Architecture: Complete Guide to Google's 7 Generations, 2025-11-30)[https://introl.com/blog/google-tpu-architecture-complete-guide-7-generations]
- (In-Datacenter Performance Analysis of a Tensor Processing Unit, 2017-04-15)[https://arxiv.org/abs/1704.04760]
- (TPU vs GPU: What's the Difference in 2025?, 2025-04-14)[https://www.cloudoptimo.com/blog/tpu-vs-gpu-what-is-the-difference-in-2025/]
- (TPUs vs. GPUs: What's the Difference?, 2025-12-15)[https://blog.purestorage.com/purely-technical/tpus-vs-gpus-whats-the-difference/]
- (AI Inference Costs 2025: Why Google TPUs Beat Nvidia, 2025-11-29)[https://www.ainewshub.org/post/ai-inference-costs-tpu-vs-gpu-2025]
- (CPU vs GPU vs TPU: The Ultimate Guide, 2025-12-14)[https://www.allied.vc/guides/cpu-vs-gpu-vs-tpu-the-ultimate-guide-to-choosing-the-right-accelerator-for-ai-and-ml]
- (CPU vs GPU: What's best for Machine Learning?, 2025-12-15)[https://aerospike.com/blog/cpu-vs-gpu/]
- (Understanding CPU vs GPU vs TPU vs NPU in Modern AI, 2025-11-04)[https://resources.l-p.com/knowledge-center/cpu-vs-gpu-vs-tpu-vs-npu-architecture-comparison-explained]
'AI > Technical' 카테고리의 다른 글
| 구글 FunctionGemma: 스마트폰에서 100% 로컬 실행되는 270M 초경량 에이전트 모델 (1) | 2025.12.19 |
|---|---|
| 마크다운에서 머메이드(Mermaid) 사용법 완벽 가이드 (4) | 2025.12.16 |
| 죽은 프레임워크 이론: React의 플랫폼화와 LLM의 자기 강화 피드백 루프 (4) | 2025.12.11 |
| GPU 서버 회사 도입 가이드: 온프레미스 vs 클라우드·호스팅 완전 비교 (7) | 2025.12.11 |
| Text2SQL: LLM이 만드는 자연어-SQL 변환의 새로운 경계 (2) | 2025.12.09 |