반응형

moe 11

DeepCogito(Cogito v2) 오픈 웨이트 하이브리드 추론 모델: IDA로 “직관”을 학습하는 이유

TL;DRDeepCogito의 Cogito v2(프리뷰)는 70B/109B(MoE)/405B/671B(MoE) 4개 하이브리드 추론 모델을 공개했고, 표준 응답 모드와 "생각(extended thinking)" 모드를 함께 제공합니다.핵심 메시지는 "추론 토큰(검색)을 길게 쓰는 대신, 추론 과정을 모델 파라미터로 증류해 '직관'을 강화한다"는 접근입니다(IDA/iterative policy improvement).공식 자료는 671B MoE가 DeepSeek R1 계열 대비 더 짧은(약 60% shorter) 추론 체인을 사용하면서 경쟁 성능을 보였다고 주장합니다.2025-11경 공개된 Cogito v2.1(671B MoE)는 128k 컨텍스트, 툴콜 지원, 상용 이용 가능한 "오픈 라이선스"로 배포되..

AI/Trend 2026.01.09

Llama 4 오픈소스 릴리스 정리: Scout/Maverick 스펙·벤치마크·라이선스 체크리스트

TL;DRMeta는 2025-04-05에 Llama 4 Scout(17B 활성/109B 총, 10M 컨텍스트)와 Llama 4 Maverick(17B 활성/400B 총, 1M 컨텍스트)을 공개했다.두 모델은 MoE 기반의 "네이티브 멀티모달(텍스트+이미지 입력)" 구조를 전면에 내세우며, 멀티링구얼(12개 언어 지원)과 긴 컨텍스트를 강점으로 한다.성능은 Hugging Face가 공개한 평가표 기준으로 MMLU Pro, GPQA Diamond 등에서 Llama 3.1/3.3 계열 대비 큰 폭의 개선 수치를 제시했다.다만 "오픈소스"라는 표현은 라이선스가 OSI(Open Source Initiative) 정의의 '오픈 소스'와는 다를 수 있어, 상용 사용 전 Llama 4 Community License의..

AI/Trend 2025.12.29

MoE(Mixture of Experts) 쉽게 이해하기: 라우팅, Top-1/Top-2, Mixtral 서빙과 K8s 체크

TL;DRMoE(Mixture of Experts)는 토큰마다 일부 Expert만 선택해 계산하는 "희소(조건부) 계산" 구조다.트랜스포머에서는 주로 Dense FFN(MLP)을 MoE FFN(Experts+Router)으로 교체하는 형태가 표준이다.라우팅은 운영 친화적인 Top-1(Switch)과, 표현력 여지가 있지만 비용이 커지는 Top-2(Mixtral)가 대표 선택지다.실제 병목은 라우팅 쏠림·capacity overflow(드롭)·all-to-all 통신·메모리 대역폭에서 자주 발생하므로 "서빙 엔진 + 관측(모니터링) + K8s 토폴로지 튜닝"을 함께 봐야 한다.본문1) MoE를 한 문장으로: "전문가들 + 배분자(라우터)"MoE는 이름 그대로 여러 전문가(Experts)가 있고, 입력(토큰..

AI/Technical 2025.12.27

NVIDIA Nemotron 3: 오픈소스 에이전틱 AI 시대를 열다

TL;DR3가지 규모의 모델 출시: Nemotron 3 Nano(30억 활성 파라미터, 즉시 사용 가능), Super(100억), Ultra(500억, 2026년 상반기)4배 높은 처리량: Nemotron 2 Nano 대비 처리량 4배 증가, 단일 H200 GPU에서 추론 토큰 60% 감소혁신적 하이브리드 MoE 아키텍처: Mamba-2와 Transformer를 결합한 경량 전문가 혼합 방식으로 효율성과 정확도 동시 달성3조 토큰 규모의 공개 데이터: 사전훈련, 사후훈련, 강화학습 데이터셋 및 오픈소스 도구 제공오픈 라이선스: 가중치, 훈련 데이터, 훈련 방법 모두 github, Hugging Face에서 자유롭게 접근 가능본문1. 에이전틱 AI의 시대: 다중 에이전트 협업이 필요한 이유조직들이 단일 모..

AI/Trend 2025.12.18

엔비디아의 Nemotron 3: 중국 오픈소스 AI 붐 속 글로벌 경쟁력 강화

TL;DR엔비디아는 2025년 12월 15일(월) Nemotron 3 오픈소스 AI 모델 패밀리를 공개했다. Nemotron 3는 Nano(30B), Super(100B), Ultra(500B) 세 가지 크기로 제공되며, 하이브리드 Mamba-Transformer 혼합 전문가 모델(MoE) 아키텍처를 탑재했다. Nano는 Qwen3-30B 대비 3.3배 높은 처리량을 제공하면서도 정확도는 동등 이상이며, 1M 토큰 컨텍스트 윈도우를 지원한다. 이는 중국의 DeepSeek, Alibaba Qwen, Moonshot AI 등 오픈소스 모델들이 글로벌 AI 사용량의 30%를 차지하는 상황에서 엔비디아의 경쟁력 강화 전략이다.본문Nemotron 3: 차세대 오픈소스 AI 모델의 등장엔비디아가 12월 15일 공개..

AI/Trend 2025.12.16

DeepSeekMath-V2와 DeepSeek-OCR 3B: 오픈소스 AI의 수학적 추론 혁명

TL;DRDeepSeek AI가 2025년 11월 발표한 DeepSeekMath-V2는 오픈웨이트 수학 모델로서 IMO 2025와 CMO 2024에서 금메달 수준의 성능을 기록했으며, Putnam 2024에서 118/120점을 달성했습니다. 자기 검증 가능한 수학적 추론 능력을 갖춘 이 모델은 기존 폐쇄형 모델들을 능가합니다. 동시에 10월 공개된 DeepSeek-OCR 3B MoE는 비전-언어 모델로서 토큰을 10배 줄이면서도 97% 정확도를 유지하여 문서 AI의 패러다임을 변화시켰습니다. 두 모델 모두 MIT 라이선스 하에 완전 오픈소스로 공개되어 글로벌 AI 커뮤니티에 큰 영향을 미칠 전망입니다.1. DeepSeekMath-V2: 올림피아드 수준의 수학적 추론1-1. 자기 검증 가능한 수학 AI의 ..

AI/Trend 2025.12.02

Alibaba Tongyi DeepResearch: 30B 파라미터 오픈소스 에이전트 모델 집중 분석

TL;DR알리바바 Tongyi DeepResearch는 30.5B 파라미터(Large Language Model, LLM)이지만, 매 토큰당 실제 활성 파라미터는 3.3B 수준입니다.합성 데이터 기반 훈련과 MoE(Mixture-of-Experts) 구조 덕분에 2개의 H100 GPU, 500달러 미만으로 훈련이 가능하며, GPT-4o·DeepSeek-V3보다 깊은 연구·추론 성능을 실현합니다.오픈소스(모델, 학습, 추론 코드 제공)로 누구나 활용 가능하며, 벤치마크(32.9%~75%)에서도 SOTA(State-of-the-Art) 성능을 기록했습니다.Tongyi DeepResearch란 무엇인가?Tongyi DeepResearch는 알리바바 Tongyi Lab에서 2025년 9월 17일 공개한 LLM ..

AI 2025.11.03

희소성(Sparsity) 기반의 혁신: MoE(Mixture of Experts) 아키텍처의 원리와 대규모 LLM에서의 역할

TL;DRMixture of Experts (MoE)는 딥러닝 모델의 연산 효율성을 높이기 위해 개발된 아키텍처 패턴입니다. 이는 단일 모델이 아닌 여러 개의 '전문가(Expert)' 서브 네트워크를 구성하고, '게이팅 네트워크(Gating Network)' 또는 '라우터(Router)'를 이용해 입력 토큰별로 가장 적합한 소수(Top-K)의 전문가만 활성화하는 희소성(Sparsity) 기반 조건부 연산을 특징으로 합니다. 이 방식을 통해 전체 파라미터 수는 대규모로 확장하면서도, 실제로 추론 및 학습 시 활성화되는 파라미터는 적어 계산 비용(FLOPs)을 절감하고 속도를 향상시킵니다. 최근 Mistral의 Mixtral 8x7B 같은 대규모 언어 모델(LLM)에 성공적으로 적용되어 효율적인 모델 확장의..

카테고리 없음 2025.10.12

알리바바의 Qwen3-VL-30B-A3B: 효율성과 성능을 모두 갖춘 오픈소스 멀티모달 AI 혁신 분석

TL;DR알리바바 클라우드(Alibaba Cloud)는 최신 Qwen3-VL 모델 시리즈의 일환으로 Qwen3-VL-30B-A3B를 오픈소스로 공개했습니다. 이 모델은 약 305억 개의 총 파라미터 중 추론 시 약 33억 개만 활성화하는 MoE(Mixture-of-Experts) 구조를 채택하여, 고성능을 유지하면서도 비용 효율적인 추론이 가능합니다. Qwen3-VL은 텍스트, 이미지, 비디오를 모두 이해하는 멀티모달 기능을 제공하며, 특히 STEM(과학, 기술, 공학, 수학) 추론, 시각적 에이전트 기능, 장기 비디오 분석에서 뛰어난 경쟁력을 보입니다. 개발자들은 Apache 2.0 라이선스를 통해 이 모델을 상업적으로 자유롭게 활용할 수 있습니다.Qwen3-VL-30B-A3B의 등장과 핵심 아키텍처알..

AI 2025.10.11

파라미터 수는 많지만 계산은 빠르게: Mixture of Experts(MoE)란?

MoE(Mixture of Experts)란 무엇인가?딥러닝 모델의 성능을 높이는 방법 중 하나는 모델의 크기를 키우는 것입니다. 하지만 모든 파라미터를 매번 사용하는 것은 계산 자원이 비효율적일 수 있습니다. 이럴 때 주목할 만한 기술이 바로 Mixture of Experts (MoE)입니다.MoE는 아주 간단히 말하면, 전체 모델 중 일부만 골라 사용하는 구조입니다. 마치 회의를 할 때 모든 전문가가 동시에 말하는 것이 아니라, 필요한 전문가 몇 명만 발언하는 것과 비슷합니다.1. MoE의 개념Mixture of Experts(MoE)는 여러 개의 **전문가 모델(Experts)**을 두고, 입력에 따라 그중 일부만 활성화하여 학습과 추론에 사용하는 방식입니다.각 전문가(Expert)는 동일한 구조를..

AI 2025.07.06
반응형