TL;DRAnthropic이 2025년 12월 18일 오픈소스 에이전틱 프레임워크 Bloom을 발표했습니다. Bloom은 researcher가 지정한 단일 행동을 입력하면, 자동으로 평가 시나리오를 생성하고 AI 모델이 해당 행동을 얼마나 자주(빈도), 얼마나 심하게(심각도) 나타내는지 정량적으로 측정합니다. 4단계 에이전틱 파이프라인(이해, 아이디어, 롤아웃, 판정)으로 작동하며, 16개 프론티어 모델을 대상으로 망상적 순응, 자기 보존, 지시된 사보타주, 자기 선호 편향 등 4가지 행동을 벤치마킹했습니다. 판정 모델(Claude Opus 4.1)은 인간 평가자와 0.86의 높은 스피어만 상관계수를 보여 신뢰성을 검증했습니다.서론: 행동 평가의 확장성 위기전통적 AI 평가 방식의 한계프론티어 AI 모델..