TL;DRMixture of Experts (MoE)는 딥러닝 모델의 연산 효율성을 높이기 위해 개발된 아키텍처 패턴입니다. 이는 단일 모델이 아닌 여러 개의 '전문가(Expert)' 서브 네트워크를 구성하고, '게이팅 네트워크(Gating Network)' 또는 '라우터(Router)'를 이용해 입력 토큰별로 가장 적합한 소수(Top-K)의 전문가만 활성화하는 희소성(Sparsity) 기반 조건부 연산을 특징으로 합니다. 이 방식을 통해 전체 파라미터 수는 대규모로 확장하면서도, 실제로 추론 및 학습 시 활성화되는 파라미터는 적어 계산 비용(FLOPs)을 절감하고 속도를 향상시킵니다. 최근 Mistral의 Mixtral 8x7B 같은 대규모 언어 모델(LLM)에 성공적으로 적용되어 효율적인 모델 확장의..