Krea Realtime 14B 공개: 실시간 Text-to-video의 도약

Royzero 2025. 10. 23. 12:40

MYVOCA for Android

단어 암기를 쉽고 효과적으로 도와주는 어플리케이션입니다.

TL;DR

Krea Realtime 14B는 140억 파라미터를 가진 오픈소스 실시간 text-to-video 모델이다.
단일 B200 GPU로 초당 11fps의 장편 비디오 생성이 가능하다.
Self-Forcing 기법을 이용해 Wan 2.1 14B로부터 증류(distillation)되었다.
기존 오픈소스 모델보다 10배 이상 크며, 실시간 편집·프롬프트 변경이 지원된다.
Apache 2.0 라이선스로 HuggingFace에서 제공된다.

Krea Realtime 14B란 무엇인가

Krea AI는 2025년 10월 14일, Krea Realtime 14B를 공식 공개했다. 이 모델은 140억 파라미터 규모의 자동회귀(Auto-regressive) Text-to-video 생성기이며, Self-Forcing이라는 변환 기법을 통해 Wan 2.1(14B 기반 텍스트-투-비디오 모델)로부터 증류되었다.

단일 NVIDIA B200 GPU에서 4단계 추론(inference steps)을 수행할 때 초당 11프레임의 속도로 장편 영상을 실시간 생성할 수 있는 점이 현시점의 핵심 성능이다.

Why it matters:
기존 오픈소스 AI 비디오 모델이 초당 1fps 수준에 머물렀던 것과 달리, Krea Realtime 14B는 실시간 인터렉티브 비디오 생성 가능성을 실질적으로 열었다는 점에서 의미가 있다.

https://huggingface.co/krea/krea-realtime-video

krea/krea-realtime-video · Hugging Face

Krea Realtime 14B is distilled from the Wan 2.1 14B text-to-video model using Self-Forcing, a technique for converting regular video diffusion models into autoregressive models. It achieves a text-to-video inference speed of 11fps using 4 inference steps o

huggingface.co

https://huggingface.co/krea/krea-realtime-video 예시 영상 #1

https://huggingface.co/krea/krea-realtime-video 예시 영상 #2

기술적 구조와 특징

이 모델은 KV Cache recomputation과 KV Cache Attention Bias 기술을 적용하여 장편 비디오 생성 시 발생하는 누적 오류(Error Accumulation)를 완화했다. 메모리 효율화를 위해 대규모 자동회귀 비디오 확산 모델에 특화된 최적화 기법도 도입했다.

이 구조 덕분에 사용자는 문장을 입력하면 약 1초 내 첫 프레임이 반환되고, 이후 프롬프트를 실시간으로 변경하며 스타일을 조정할 수 있다.

Why it matters:
실시간 비디오 편집과 생성 간 경계를 허문 첫 오픈소스 모델로, 크리에이티브 AI 워크플로우의 대화형(interactive) 전환을 이끌 것으로 평가된다.

실행 및 배포 환경

Hugging Face Hub에는 krea/krea-realtime-video 저장소가 공개되어 있으며, 개발자는 diffusers 라이브러리 기반 ModularPipelineBlocks를 이용해 손쉽게 불러올 수 있다.

예시 실행 명령은 다음과 같다.

git clone https://github.com/krea-ai/realtime-video
cd realtime-video
uv sync
huggingface-cli download krea/krea-realtime-video krea-realtime-video-14b.safetensors
uvicorn release_server:app --host 0.0.0.0 --port 8000

Why it matters:
완전한 오픈소스 배포로 연구자 및 크리에이터 커뮤니티가 동일한 환경에서 모델을 실험할 수 있게 되었으며, Apache 2.0 라이선스를 통해 상업적 응용도 가능하다.

기존 모델 대비 비교

항목	Krea Realtime 14B	Wan 2.1 (1.3B)	Pika 1.5	Runway Gen-3
파라미터 수	14B	1.3B	비공개	비공개
모델 구조	Auto-regressive (Self-Forcing)	Diffusion	Diffusion	Diffusion
오픈소스 여부	예 (Apache 2.0)	부분적	아니오	아니오
추론 속도	11fps (B200 단일)	약 1fps 미만	약 1fps	약 1fps
실시간 편집	지원	미지원	미지원	제한적

Why it matters:
오픈소스 모델로서 성능과 상호작용성을 동시에 확보한 첫 사례로 기록될 가능성이 있다.

결론 (요약 정리)

Krea Realtime 14B는 140억 파라미터, 11fps 속도의 실시간 text-to-video 생성 모델이다.
기존 오픈소스 대비 10배 크며, Self-Forcing 기법으로 Wan 2.1에서 증류됐다.
Hugging Face에서 Apache 2.0으로 공개되어 누구나 사용 가능하다.
실시간 편집과 프롬프트 변경을 지원하며, 장편 비디오 생성의 상업적 활용성이 높다.
2025년 오픈소스 비디오 AI 생태계의 성과 중 가장 주목할 만한 기술적 진보다.

References

저작자표시 비영리 변경금지 (새창열림)

'AI' 카테고리의 다른 글

리스케일, AI용 데이터 인텔리전스 앞세워 디지털 엔지니어링 플랫폼 확장 나서 (0)	2025.10.24
Sentient AGI의 OML 1.0: 오픈소스 AI의 경제적 지속 가능성을 위한 AI 지문 기술 (0)	2025.10.24
DeepSeek-OCR: 중국발 AI OCR 혁신 - 텍스트를 이미지로 10배 압축한 문맥 엔진 (1)	2025.10.22
AI 버블, 현실인가 과열인가 - 안드레이 카파시와 투자자들의 경고 (0)	2025.10.22
Magistral Small 24B: Mistral의 Apache 2.0 오픈소스 강화학습 모델 (1)	2025.10.21

현재글Krea Realtime 14B 공개: 실시간 Text-to-video의 도약

로이팩토리, IOS, 프로그래머스, 리눅스, Java, 코틀린, programmers, DevOps, SwiftUI, 코딩테스트, 안드로이드, Kubernetes, 쿠버네티스, nodejs, Kotlin, linux, algorithm, javascript, Android, 자바,

Today :
Yesterday :

Royfactory