TL;DR마이크로소프트가 2025년 12월 공개한 VibeVoice-Realtime-0.5B는 스트리밍 텍스트 입력을 지원하는 경량 실시간 텍스트-음성 변환(TTS) 모델입니다. 5억 개의 파라미터로 구성되어 있으며, 약 300ms의 초저지연으로 첫 음성을 생성하고 최대 10분의 장문 음성을 합성할 수 있습니다. 초저주파(7.5Hz) 음성 토크나이저를 통해 24kHz 오디오를 3,200배 압축하면서도 음질을 유지하며, MIT 라이선스로 개인 및 상업 목적 사용이 가능합니다. LLM과 통합하여 대화형 음성 에이전트 구축, 라이브 데이터 스트림 나레이션, 엣지 디바이스 배포에 활용할 수 있습니다.1. VibeVoice-Realtime-0.5B 개요: 왜 주목할까1.1 모델의 탄생 배경마이크로소프트는 기존의 ..