AI

Krea Realtime 14B 공개: 실시간 Text-to-video의 도약

Royzero 2025. 10. 23. 12:40
반응형

TL;DR

  • Krea Realtime 14B는 140억 파라미터를 가진 오픈소스 실시간 text-to-video 모델이다.
  • 단일 B200 GPU로 초당 11fps의 장편 비디오 생성이 가능하다.
  • Self-Forcing 기법을 이용해 Wan 2.1 14B로부터 증류(distillation)되었다.
  • 기존 오픈소스 모델보다 10배 이상 크며, 실시간 편집·프롬프트 변경이 지원된다.
  • Apache 2.0 라이선스로 HuggingFace에서 제공된다.

Krea Realtime 14B란 무엇인가

Krea AI는 2025년 10월 14일, Krea Realtime 14B를 공식 공개했다. 이 모델은 140억 파라미터 규모의 자동회귀(Auto-regressive) Text-to-video 생성기이며, Self-Forcing이라는 변환 기법을 통해 Wan 2.1(14B 기반 텍스트-투-비디오 모델)로부터 증류되었다.

단일 NVIDIA B200 GPU에서 4단계 추론(inference steps)을 수행할 때 초당 11프레임의 속도로 장편 영상을 실시간 생성할 수 있는 점이 현시점의 핵심 성능이다.

Why it matters:
기존 오픈소스 AI 비디오 모델이 초당 1fps 수준에 머물렀던 것과 달리, Krea Realtime 14B는 실시간 인터렉티브 비디오 생성 가능성을 실질적으로 열었다는 점에서 의미가 있다.

 

https://huggingface.co/krea/krea-realtime-video

 

krea/krea-realtime-video · Hugging Face

Krea Realtime 14B is distilled from the Wan 2.1 14B text-to-video model using Self-Forcing, a technique for converting regular video diffusion models into autoregressive models. It achieves a text-to-video inference speed of 11fps using 4 inference steps o

huggingface.co

 

 

https://huggingface.co/krea/krea-realtime-video 예시 영상 #1

 

https://huggingface.co/krea/krea-realtime-video 예시 영상 #2

 

 


기술적 구조와 특징

이 모델은 KV Cache recomputationKV Cache Attention Bias 기술을 적용하여 장편 비디오 생성 시 발생하는 누적 오류(Error Accumulation)를 완화했다. 메모리 효율화를 위해 대규모 자동회귀 비디오 확산 모델에 특화된 최적화 기법도 도입했다.

이 구조 덕분에 사용자는 문장을 입력하면 약 1초 내 첫 프레임이 반환되고, 이후 프롬프트를 실시간으로 변경하며 스타일을 조정할 수 있다.

Why it matters:
실시간 비디오 편집과 생성 간 경계를 허문 첫 오픈소스 모델로, 크리에이티브 AI 워크플로우의 대화형(interactive) 전환을 이끌 것으로 평가된다.


실행 및 배포 환경

Hugging Face Hub에는 krea/krea-realtime-video 저장소가 공개되어 있으며, 개발자는 diffusers 라이브러리 기반 ModularPipelineBlocks를 이용해 손쉽게 불러올 수 있다.

예시 실행 명령은 다음과 같다.

git clone https://github.com/krea-ai/realtime-video
cd realtime-video
uv sync
huggingface-cli download krea/krea-realtime-video krea-realtime-video-14b.safetensors
uvicorn release_server:app --host 0.0.0.0 --port 8000

Why it matters:
완전한 오픈소스 배포로 연구자 및 크리에이터 커뮤니티가 동일한 환경에서 모델을 실험할 수 있게 되었으며, Apache 2.0 라이선스를 통해 상업적 응용도 가능하다.


기존 모델 대비 비교

항목 Krea Realtime 14B Wan 2.1 (1.3B) Pika 1.5 Runway Gen-3
파라미터 수 14B 1.3B 비공개 비공개
모델 구조 Auto-regressive (Self-Forcing) Diffusion Diffusion Diffusion
오픈소스 여부 예 (Apache 2.0) 부분적 아니오 아니오
추론 속도 11fps (B200 단일) 약 1fps 미만 약 1fps 약 1fps
실시간 편집 지원 미지원 미지원 제한적

Why it matters:
오픈소스 모델로서 성능과 상호작용성을 동시에 확보한 첫 사례로 기록될 가능성이 있다.


결론 (요약 정리)

  • Krea Realtime 14B는 140억 파라미터, 11fps 속도의 실시간 text-to-video 생성 모델이다.
  • 기존 오픈소스 대비 10배 크며, Self-Forcing 기법으로 Wan 2.1에서 증류됐다.
  • Hugging Face에서 Apache 2.0으로 공개되어 누구나 사용 가능하다.
  • 실시간 편집과 프롬프트 변경을 지원하며, 장편 비디오 생성의 상업적 활용성이 높다.
  • 2025년 오픈소스 비디오 AI 생태계의 성과 중 가장 주목할 만한 기술적 진보다.

References

1) Krea Realtime 14B Official Blog | Krea.ai | 2025-10-14 | https://www.krea.ai/blog/krea-realtime-14b
2) krea/krea-realtime-video | Hugging Face | 2025-10-07 | https://huggingface.co/krea/krea-realtime-video
3) @krea_ai Announcement | X (Twitter) | 2025-10-14 | https://x.com/krea_ai/status/1980358158376988747
4) Vaibhav Srivastav Post | X (Twitter) | 2025-10-14 | https://x.com/reach_vb/status/1980376352726610342
5) AC.Lab Korea Community Post | Facebook | 2025-10-15 | https://www.facebook.com/groups/ac.lab/posts/2014194626101435/

반응형