TL;DR최근 대규모 언어 모델(LLM)의 인퍼런스 작업을 실시간으로 모니터링할 수 있는 도구인 Llmtop이 출시되었습니다. 이 도구는 GPU 워커들의 KV 캐시 사용량, 대기열 깊이, 처리량 등의 지표를 한눈에 확인할 수 있는 터미널 대시보드를 제공합니다. Prometheus 기반의 메트릭 데이터를 시각화하며, vLLM, SGLang, LMCache와 같은 주요 프레임워크를 지원합니다. Llmtop란 무엇인가?Llmtop은 대규모 언어 모델(LLM) 인퍼런스 클러스터를 위한 실시간 모니터링 도구입니다.이는 Htop(Linux 프로세스 모니터링 도구)에서 영감을 받아 개발되었으며, GPU 워커들의 리소스 사용량과 성능 지표를 시각적으로 모니터링할 수 있는 대시보드를 제공합니다.주요 기능KV 캐시 사용량..