반응형
TL;DR
- 알리바바 Tongyi DeepResearch는 30.5B 파라미터(Large Language Model, LLM)이지만, 매 토큰당 실제 활성 파라미터는 3.3B 수준입니다.
- 합성 데이터 기반 훈련과 MoE(Mixture-of-Experts) 구조 덕분에 2개의 H100 GPU, 500달러 미만으로 훈련이 가능하며, GPT-4o·DeepSeek-V3보다 깊은 연구·추론 성능을 실현합니다.
- 오픈소스(모델, 학습, 추론 코드 제공)로 누구나 활용 가능하며, 벤치마크(32.9%~75%)에서도 SOTA(State-of-the-Art) 성능을 기록했습니다.
Tongyi DeepResearch란 무엇인가?
- Tongyi DeepResearch는 알리바바 Tongyi Lab에서 2025년 9월 17일 공개한 LLM 기반 AI 에이전트로, 심층 장기 연구·정보 탐색을 위한 특화 모델입니다.
- MoE(Mixture-of-Experts) 기반으로 총 30.5B 파라미터 중 실제로는 3.3B만 활성화되어, 대규모 LLM의 효율성과 성능을 동시에 추구합니다.
- 128K 컨텍스트 윈도우를 지원하며, 다단계 복합 질의·웹 기반 탐색·보고서 자동 합성 등 전문 연구 환경에 적합합니다.
Why it matters:
장기적 추론과 대용량 정보를 다뤄야 하는 실무·연구 환경에서 비용과 효율의 새로운 표준을 제시합니다.
트레이닝 및 기술 특성
- Tongyi DeepResearch는 완전 자동 합성 데이터 엔진으로, 사람이 직접 라벨링하지 않은 대규모 훈련 데이터(DAG 기반, 히스토리컬 툴 트레이스 등)로 에이전트 행동을 강화합니다.
- “Agentic Mid-Training” 단계(언어 사전훈련 ↔ 과제별 학습 간 중간과정)와 “On-Policy RL” 기반(그룹 상대 정책 최적화, GRPO; 토큰 단위 정책 그래디언트, leave-one-out adv. 등)으로 동적 환경에서 안정적 학습을 실현합니다.
- MoE 구조 덕분에, 대형 모델의 전문성과 소형 모델의 비용효율(저렴한 GPU·최소 자원 소요)을 모두 달성.
Why it matters:
합성 데이터, 자동화·저비용·고효율 구조로 누구나 실험할 수 있고, 보유 자원에 맞춘 최적화가 가능합니다.
성능 및 벤치마킹 결과
| 벤치마크 | 성능(%) | 비교 모델 |
|---|---|---|
| Humanity's Last Exam | 32.9 | GPT-4o(낮음) |
| BrowseComp | 43.4(EN)/46.7(ZH) | DeepSeek-V3(낮음) |
| xbench-DeepSearch | 75.0 | GLM-4.5(70.0) |
| FRAMES | 90.6 | Other Agents |
- 모델적 효율성·SOTA 성능을 모두 달성했으며, 128K context, 다양한 툴 호환(ReAct, IterResearch 모드 등)으로 장기·다중 소스 검증, 오답 감소, 자동 문서 생성에 탁월합니다.
- 특정 벤치마크에서 OpenAI GPT-4o, DeepSeek-V3보다 높은 성적을 다수 기록하였으며, 업계 표준과 지속 비교 검증 중입니다.
Why it matters:
연구, 산업, 기업 환경에서 검증된 고성능·저비용 AI 솔루션의 수요가 크게 높아지고 있습니다.
오픈소스 접근성과 실제 활용
- GitHub, HuggingFace 등에서 전체 모델, 트레이닝/추론 파이프라인을 공개하며, Apache-2.0 라이선스 기반으로 누구나 활용·확장 가능합니다.
- 합성 데이터/자동화 트레이닝 덕분에 실제 기업에서 신속 도입 및 커스터마이즈가 가능합니다.
- 산업(제약·재무·학계 등)에서 도입 시, 대규모 R&D 비용 절감(20~30% 절감 효과), 투명한 이력 추적, EU AI법 등 최신 규제 대응에도 효과적입니다.
Why it matters:
오픈소스 생태계 확장과 실질적인 비용 절감이 AI 대중화·공정경쟁에 지대한 영향을 준다는 사실.
결론 (요약 정리)
- Tongyi DeepResearch는 대규모 효율·고성능을 동시에 실현한 완전 오픈소스 AI 에이전트입니다.
- 2025년 11월 기준, GPT-4o·DeepSeek-V3보다 우월한 벤치마크 성능과 저비용 구현으로 차세대 표준을 제시합니다.
- 합성 데이터·자동화 학습·128K 컨텍스트 등 실무성에 강점이 있으며, 실증적/규제적 기준도 충족합니다.
- 오픈소스 접근성을 바탕으로 산업별 맞춤형 활용과 비용 절감이 기대됩니다.
References
| 제목 | 매체 | 날짜 | URL |
|---|---|---|---|
| Alibaba's Tongyi DeepResearch AI Agent Surpasses GPT-4o and DeepSeek-V3 | Blockchain.News | 2025-10-29 | https://blockchain.news/ainews/alibaba-s-tongyi-deepresearch-ai-agent-surpasses-gpt-4o-and-deepseek-v3-in-deep-research-using-only-3-3b-active-parameters |
| Alibaba Releases Tongyi DeepResearch: A 30B-Parameter Open-Source Agentic LLM Optimized for Long-Horizon Research | Marktechpost | 2025-09-17 | https://www.marktechpost.com/2025/09/18/alibaba-releases-tongyi-deepresearch-a-30b-parameter-open-source-agentic-llm-optimized-for-long-horizon-research/ |
| Tongyi DeepResearch Technical Report | Chatpaper | 2025-10-27 | https://chatpaper.com/chatpaper/paper/204298 |
| Tongyi DeepResearch: Revolutionizing Deep Information Retrieval | xugj520.cn | 2025-09-16 | https://www.xugj520.cn/en/archives/tongyi-deepresearch-agentic-model.html?amp=1 |
| [Literature Review] Tongyi DeepResearch Technical Report | Moonlight | 2025-10-29 | https://www.themoonlight.io/en/review/tongyi-deepresearch-technical-report |
반응형
'AI' 카테고리의 다른 글
| Meta의 LLM 혁신: Circuit-based Reasoning Verification (CRV) 기술로 추론 오류를 진단하고 수정하는 원리 (1) | 2025.11.03 |
|---|---|
| NVIDIA 새로운 RAG(검색 증강 생성) 제품군 출시 - Nemotron RAG (8) | 2025.11.03 |
| ChatGPT 2025년 11월 최신 업데이트: 추론 강화·Agent Mode 공개 (KR 버전) (5) | 2025.11.02 |
| TPU (Tensor Processing Unit) 이해하기: 초보자를 위한 Google AI 반도체 가이드 (9) | 2025.11.02 |
| Cursor 2.0: 에이전트 기반 AI 코딩의 패러다임 전환 (12) | 2025.10.31 |