AI

Meta Omnilingual ASR, 1,600개 언어 지원 오픈소스 음성인식 혁신

Royzero 2025. 11. 11. 23:14
반응형

TL;DR

  • Meta, 1,600개 이상 언어 지원 Omnilingual ASR 2025년 11월 10일 오픈소스 공개
  • 500개 이상 저자원 언어, 78% 언어에서 문자오류율(CER) 10% 이하 성능
  • 사용자가 녹음 샘플 몇 개만으로 직접 언어 추가 가능한 확장형 구조
  • 7B 파라미터 기반 wav2vec 2.0, LLM-style 인컨텍스트 학습 적용
  • 대규모 Omnilingual ASR Corpus 및 파라미터별 모델 오픈

Omnilingual ASR: 주요 특징

  • 지원 언어: 1,600개 이상, 저자원 언어 500여 개 포함, 기존 ASR의 한계 극복
  • 구조: 7B 파라미터 Omnilingual wav2vec 2.0 encoder + CTC/Transformer 기반 decoder
  • 학습 방식: 인컨텍스트 학습으로 몇 개의 오디오-텍스트만으로 새로운 언어 추가 가능
  • 데이터셋: Omnilingual ASR Corpus(350개 소수언어 포함), 완전 오픈소스로 공개
  • 오픈소스: Apache 2.0 및 CC-BY 라이선스, 300M~7B 파라미터 모델 오픈

Why it matters: AI 기반 음성인식의 저변이 확장되고, 디지털 소외 언어 커뮤니티도 즉시 활용 및 개발에 참여할 수 있음.


기존 모델 대비 차별점

항목 Meta Omnilingual ASR 기존 상용 ASR/Whisper
지원 언어 수 1,600+ 수십~수백(Whisper 100+)
저자원 언어 지원 500+ 제한적
인컨텍스트 학습 지원(몇 개 샘플로 추가) 미지원
말뭉치/데이터셋 오픈 여부 예, 350개+ 소수언어 제한/없음
라이선스 Apache 2.0, CC-BY 오픈소스(일부 제한)
최근 공개일 2025-11-10 Whisper v3(2025-10 기준)

Why it matters: 기존 오픈AI Whisper 등과 달리 언어 확장성, 저자원 언어 지원, 데이터 오픈이 탁월함.


모델 및 활용

  • 로컬 설치, 오프라인 추론 가능(사생활 보호)
  • 연구자, 개발자 누구나 새로운 언어, 방언, 도메인에 바로 적용 가능
  • 파라미터별 경량/고성능 버전 제공(300M~7B)

Why it matters: 기업·공공기관·연구/비영리단체 등 다양한 활용처에서 커스텀 음성인식 시스템 구축 허들이 낮아짐.


결론

Meta Omnilingual ASR는 2025년 기준 세계 최다 언어 지원, 저자원 언어 혁신, 오픈소스전략을 동시 달성한 AI 기반 음성 인식 시스템입니다. 확장형 구조와 무료 데이터 제공 덕분에 글로벌 디지털 포용성이 신속히 확대될 전망입니다.


References

반응형