TL;DRAgentEvolver는 자체 백그라운드 학습사이클로 데이터 생성 없이 인간식 추론 기반 능력 진화를 달성합니다.7B 모델임에도 불구하고 14B 대형 LLM 대비 성능에서 우위(최대 +29%p)를 보입니다.Self-Questioning, Self-Navigating, Self-Attributing 3단계 메커니즘이 효율·자율·최적화 핵심.오픈소스화 및 다양한 환경·API 규격 지원으로 개발 유연성 증대.절대 날짜 기준 2025-11-12 기준 최신 논문·코드.AgentEvolver 구조 및 주요 특징AgentEvolver는 전통 RL(강화학습) 파이프라인을 벗어나 대규모 LLM의 추론력으로 자체 학습·진화백업 사이클을 구현합니다.1. Self-Questioning환경에서 다양한 상태-행동 탐색을..