반응형

vLLM 4

DeepCogito(Cogito v2) 오픈 웨이트 하이브리드 추론 모델: IDA로 “직관”을 학습하는 이유

TL;DRDeepCogito의 Cogito v2(프리뷰)는 70B/109B(MoE)/405B/671B(MoE) 4개 하이브리드 추론 모델을 공개했고, 표준 응답 모드와 "생각(extended thinking)" 모드를 함께 제공합니다.핵심 메시지는 "추론 토큰(검색)을 길게 쓰는 대신, 추론 과정을 모델 파라미터로 증류해 '직관'을 강화한다"는 접근입니다(IDA/iterative policy improvement).공식 자료는 671B MoE가 DeepSeek R1 계열 대비 더 짧은(약 60% shorter) 추론 체인을 사용하면서 경쟁 성능을 보였다고 주장합니다.2025-11경 공개된 Cogito v2.1(671B MoE)는 128k 컨텍스트, 툴콜 지원, 상용 이용 가능한 "오픈 라이선스"로 배포되..

AI/Trend 2026.01.09

Seed-Omni-8B 실전 가이드: 텍스트·이미지·오디오 Any-to-Any

TL;DRSeed-Omni-8B는 NAVER의 HyperCLOVA X SEED 8B Omni로 공개된 통합(유니파이드) 옴니모달 모델이며, 텍스트/이미지/오디오(및 비디오 입력) -> 텍스트/이미지/오디오 출력을 목표로 한다.추론은 OmniServe(OpenAI 호환 API)로 제공되며, 이미지/오디오 생성 결과는 S3 호환 스토리지에 저장되어 URL 형태로 반환되는 설계를 사용한다."오픈소스"라는 표현이 기사에 등장하지만, 모델은 커스텀 라이선스(계약)이며 표시 의무/사용 제한/대규모 서비스 조건 등이 명시돼 있다.NVIDIA Developer Forums에는 DGX Spark에서 돌아가는 turnkey 데모(repo: seed-omni-spark)가 공유되어, ./start.sh로 WebUI(포트 3..

AI/Trend 2026.01.05

MoE(Mixture of Experts) 쉽게 이해하기: 라우팅, Top-1/Top-2, Mixtral 서빙과 K8s 체크

TL;DRMoE(Mixture of Experts)는 토큰마다 일부 Expert만 선택해 계산하는 "희소(조건부) 계산" 구조다.트랜스포머에서는 주로 Dense FFN(MLP)을 MoE FFN(Experts+Router)으로 교체하는 형태가 표준이다.라우팅은 운영 친화적인 Top-1(Switch)과, 표현력 여지가 있지만 비용이 커지는 Top-2(Mixtral)가 대표 선택지다.실제 병목은 라우팅 쏠림·capacity overflow(드롭)·all-to-all 통신·메모리 대역폭에서 자주 발생하므로 "서빙 엔진 + 관측(모니터링) + K8s 토폴로지 튜닝"을 함께 봐야 한다.본문1) MoE를 한 문장으로: "전문가들 + 배분자(라우터)"MoE는 이름 그대로 여러 전문가(Experts)가 있고, 입력(토큰..

AI/Technical 2025.12.27

vLLM: 고성능 LLM 추론을 위한 오픈소스 라이브러리

1. vLLM이란 무엇인가?vLLM은 대규모 언어 모델(LLM)을 고속·고효율·저메모리 사용으로 로컬 또는 서버 환경에서 추론 및 배포할 수 있게 해주는 오픈소스 Python 라이브러리입니다.Berkeley 대학교 Sky Computing Lab이 주도 개발했으며, 이후 커뮤니티 중심으로 발전함 (github.com)핵심 기술인 PagedAttention를 기반으로, KV 캐시(key/value cache)를 메모리 단편화 없이 관리하여 대기시간과 메모리 소모를 크게 줄입니다 (github.com)2. 핵심 기능과 성능PagedAttention: OS 가상 메모리 방식처럼 KV 캐시를 페이지 단위로 관리해 메모리 효율 극대화 (medium.com)Continuous Batching: 여러 요청을 하나의 ..

AI 2025.06.13
반응형