1. vLLM이란 무엇인가?vLLM은 대규모 언어 모델(LLM)을 고속·고효율·저메모리 사용으로 로컬 또는 서버 환경에서 추론 및 배포할 수 있게 해주는 오픈소스 Python 라이브러리입니다.Berkeley 대학교 Sky Computing Lab이 주도 개발했으며, 이후 커뮤니티 중심으로 발전함 (github.com)핵심 기술인 PagedAttention를 기반으로, KV 캐시(key/value cache)를 메모리 단편화 없이 관리하여 대기시간과 메모리 소모를 크게 줄입니다 (github.com)2. 핵심 기능과 성능PagedAttention: OS 가상 메모리 방식처럼 KV 캐시를 페이지 단위로 관리해 메모리 효율 극대화 (medium.com)Continuous Batching: 여러 요청을 하나의 ..