반응형

대규모언어모델 2

vLLM: 고성능 LLM 추론을 위한 오픈소스 라이브러리

1. vLLM이란 무엇인가?vLLM은 대규모 언어 모델(LLM)을 고속·고효율·저메모리 사용으로 로컬 또는 서버 환경에서 추론 및 배포할 수 있게 해주는 오픈소스 Python 라이브러리입니다.Berkeley 대학교 Sky Computing Lab이 주도 개발했으며, 이후 커뮤니티 중심으로 발전함 (github.com)핵심 기술인 PagedAttention를 기반으로, KV 캐시(key/value cache)를 메모리 단편화 없이 관리하여 대기시간과 메모리 소모를 크게 줄입니다 (github.com)2. 핵심 기능과 성능PagedAttention: OS 가상 메모리 방식처럼 KV 캐시를 페이지 단위로 관리해 메모리 효율 극대화 (medium.com)Continuous Batching: 여러 요청을 하나의 ..

개발 창고/AI 2025.06.13

Ollama란? 초보자를 위한 로컬 LLM 실행 도구 안내

1. Ollama란 무엇인가?Ollama는 대규모 언어 모델(LLM)을 간단한 명령어만으로 로컬 환경에서 실행할 수 있도록 돕는 플랫폼입니다.복잡한 설치나 클라우드 연결 없이도 LLM을 테스트하고, API로 연동하여 개발에 활용할 수 있게 설계되어 있습니다.Ollama의 주요 특징로컬 실행 지원: Llama 3, Gemma, Mistral 등 다양한 모델을 설치 없이 실행 가능컨테이너 기반 모델 관리: Docker처럼 모델 단위로 pull/run 방식 사용OpenAI API 호환: 기존 OpenAI 기반 코드와 거의 동일하게 사용할 수 있음Windows, macOS, Linux 지원멀티모달 모델 실행 지원 (이미지, 비디오 등 활용)2. 설치 방법 및 버전 확인설치macOS / Linux에서는 아래 명령..

개발 창고/AI 2025.06.12
반응형