AI/Technical

구글 FunctionGemma: 스마트폰에서 100% 로컬 실행되는 270M 초경량 에이전트 모델

Royzero 2025. 12. 19. 18:16
반응형

TL;DR

구글이 2025년 12월 17일 FunctionGemma를 공개했습니다. Gemma 3 270M 기반 초경량 모델로, 자연언어 명령을 실시간으로 도구(함수) 호출로 변환합니다. 스마트폰과 브라우저에서 인터넷 없이 100% 로컬 실행되어 완벽한 개인정보 보호즉각 응답 속도를 보장합니다. Fine-tuning으로 정확도를 58%에서 85%로 끌어올릴 수 있으며, 모든 배포 도구(LiteRT, Ollama, vLLM 등)가 지원됩니다.


본문

FunctionGemma란 무엇인가?

FunctionGemma는 구글 DeepMind가 개발한 Gemma 3 270M 기반의 특화 모델입니다. 기존 대형 언어 모델이 '대화'만 하는 데 그친 반면, FunctionGemma는 자연언어를 구조화된 함수 호출로 변환하여 스마트폰이나 브라우저 같은 엣지 디바이스에서 실시간으로 작업을 실행합니다.

예를 들어 사용자가 "내일 점심 회의를 3시에 일정에 추가해줘"라고 말하면, FunctionGemma는 이를 파싱하여 createCalendarEvent(title="점심 회의", time="2025-12-20 15:00")이라는 함수 호출로 변환합니다. 이 모든 처리가 기기 내부에서만 일어나므로 데이터가 외부 서버로 전송되지 않습니다.

Why it matters:

  • 클라우드 기반 AI는 민감한 개인 데이터(달력, 연락처, 위치 등)를 서버에 전송해야 하므로 보안 위험이 있습니다. FunctionGemma는 100% 로컬 처리로 이를 완전히 차단합니다.
  • 에지 처리로 인터넷 연결이 끊어져도 작동하며, 즉각적인 응답이 필요한 UX에 최적화됩니다.

기술 사양: 초소형 크기로 충분한 성능

FunctionGemma는 단 270M 파라미터로, Gemma 3 27B보다 100배 이상 작습니다. 그럼에도 불구하고 실무 수준의 성능을 발휘합니다.

지표 수치
파라미터 수 270M
모델 크기 (INT8 양자화) 288MB
메모리 사용 (Peak) ~551MB
Prefill 속도 ~1,700 tokens/sec
Decode 속도 ~125 tokens/sec
Time-to-First-Token 0.3초
컨텍스트 윈도우 32K 토큰
배포 기기 Pixel 8, iPhone 15 Pro, S25 Ultra CPU

이러한 수치는 일반 스마트폰의 프로세서(CPU)만으로도 실행 가능함을 의미합니다. GPU나 특수 칩이 필요 없으므로 거의 모든 최신 모바일 기기에서 작동합니다.

Why it matters:

  • 550MB RAM 용량만으로 풀 정밀도(BF16) 모델을 로드할 수 있으므로, 2020년 이후 출시된 대부분의 스마트폰에서 작동합니다.
  • 배터리 소비가 최소한으로 설계되었기 때문에, 지속적인 온디바이스 에이전트 실행이 현실적입니다.

핵심 특징: 단순 프롬프팅 넘어 특화된 훈련

FunctionGemma의 강점은 단순 프롬프팅이 아닌 목적-특화 훈련에 있습니다.

1) 통합 액션-대화 인터페이스 (Unified Action & Chat)

FunctionGemma는 컴퓨터와 인간 양쪽과 대화할 수 있습니다. 함수를 호출한 후 그 결과를 자연언어로 사용자에게 설명할 수 있다는 뜻입니다.

예: "점심 회의를 내일 오후 3시에 추가했습니다. 알림은 15분 전에 받으실 것입니다."

2) 커스터마이제이션을 위해 설계됨 (Built for Customization)

일반 LLM에서 함수 호출을 유도하려면 프롬프트를 정교하게 작성해야 합니다. 하지만 FunctionGemma는 데이터셋 기반 Fine-tuning으로 특정 도메인에 특화됩니다.

구글의 Mobile Actions 벤치마크 평가 결과:

  • Zero-shot (프롬프팅만): 58% 정확도
  • Fine-tuning 후: 85% 정확도

즉, 전문화되지 않은 상태에서도 절반 이상 작동하지만, 100~1000개 정도의 예제로 Fine-tuning하면 프로덕션 수준의 신뢰성을 달성합니다.

3) 엣지 최적화 아키텍처 (Engineered for the Edge)

FunctionGemma는 엣지 배포를 염두에 두고 설계되었습니다:

  • 256K 어휘 (Vocabulary): JSON과 다국어 입력을 효율적으로 토크나이제이션합니다.
  • 양자화 인식 훈련 (QAT): 모바일 배포 시 ~70% 정확도를 유지하면서 ~50 tokens/sec 속도를 달성합니다.
  • NVIDIA Jetson Nano, 스마트폰 등 제약된 하드웨어에서도 작동합니다.

Why it matters:

  • 기존 온디바이스 모델은 정확도와 속도 사이에서 타협을 강요했지만, FunctionGemma의 특화 설계는 양쪽을 동시에 달성합니다.
  • 배터리 성능과 열 발생을 최소화하면서도 실용적 속도(50 tokens/sec)를 보장합니다.

공식 데모: 실제 작동 사례

구글은 두 가지 데모를 통해 FunctionGemma의 능력을 입증했습니다.

Mobile Actions: 스마트폰 기본 기능 제어

사용자 음성/텍스트 명령을 기기의 시스템 도구로 변환합니다:

  • "손전등 켜줘" → turnOnFlashlight()
  • "존을 연락처에 추가해" → createContact(name="존")
  • "강남역을 지도에 띄워" → showMap(query="강남역")

중요한 점: 이 모든 작업이 인터넷 없이 기기 내에서만 처리됩니다. 따라서 연락처, 위치 정보, 달력 데이터가 구글이나 다른 서버로 전송되지 않습니다.

TinyGarden: 게임 제어 AI

더 복잡한 상황에서도 FunctionGemma가 작동함을 보여줍니다.

사용자가 "상단 줄에 해바라기를 심고 물을 줘"라고 음성으로 지시하면:

  1. 명령을 파싱하여 plantCrop(crop="sunflower", row=0) 호출
  2. waterCrop(row=0) 호출
  3. 게임 로직 실행 후 결과 표시

이는 다중 턴 로직을 요구하는 복잡한 작업도 처리 가능함을 의미합니다.

Why it matters:

  • FunctionGemma가 단순한 명령 변환을 넘어, 자연언어의 의도를 이해하고 여러 함수 호출을 순차적으로 실행할 수 있습니다.
  • 게임, 스마트홈 자동화, 생산성 도구 등 다양한 도메인에 적용 가능함을 시사합니다.

하이브리드 아키텍처: 에지와 클라우드의 조화

FunctionGemma는 독립형 에이전트 역할도 하지만, 대규모 시스템의 "지능형 트래픽 컨트롤러"로도 작동합니다.

사용자 입력
  ↓
FunctionGemma 270M (에지)
  ├─ 간단한 명령 → 즉시 로컬 실행 (0.3초)
  │  예: "손전등 켜", "연락처 추가", "알림 설정"
  └─ 복잡한 작업 → Gemma 3 27B로 라우팅 (선택적 클라우드)
     예: "이번 주의 회의 일정을 검토하고 중복 제거"

이 설계의 이점:

  • 사용자 개인정보 보호: 민감한 개인 데이터(연락처, 위치, 달력)는 기기 내에서만 처리합니다.
  • 비용 최적화: 서버 비용이 드는 대형 모델 호출을 최소화합니다.
  • 응답 속도: 대부분의 일상적 명령은 밀리초 단위로 처리됩니다.

Why it matters:

  • 이전에는 모든 요청을 클라우드로 보내거나, 기기의 모든 처리를 로컬로 강제해야 했습니다. FunctionGemma는 둘을 지능적으로 조합합니다.

배포 에코시스템: 광범위한 도구 지원

FunctionGemma는 다양한 프레임워크와 런타임을 지원하여 개발자에게 선택지를 줍니다.

Fine-tuning 도구:

  • Hugging Face Transformers
  • Unsloth (빠른 훈련 최적화)
  • Keras
  • NVIDIA NeMo

배포 런타임:

  • LiteRT-LM (모바일 최적화, 권장)
  • vLLM (서버 추론)
  • Ollama (데스크톱/로컬)
  • Llama.cpp (CPU 최적화)
  • NVIDIA Jetson 및 RTX PRO (엣지 디바이스)
  • Vertex AI (구글 클라우드)

라이선스: Open weights, 상용 이용 허가

Hugging Face, Kaggle, Google Vertex AI에서 즉시 다운로드 가능합니다.

Why it matters:

  • 개발자가 선호하는 스택 (PyTorch, TensorFlow, JAX 등)을 자유롭게 선택할 수 있습니다.
  • 프로토타입에서 프로덕션까지 동일한 모델을 사용할 수 있어 전환 비용이 없습니다.

사용 사례별 적용 가이드

FunctionGemma가 최적인 경우

  1. 정의된 API 표면이 있음

    • 스마트홈 기기 (조명, 온도조절, 보안)
    • 미디어 재생 (Spotify, YouTube 제어)
    • 내비게이션 (목적지 설정, 경로 변경)
    • 예: 200~500개의 명확하게 정의된 함수
  2. Fine-tuning 준비 완료

    • 기업 내부 API 또는 도메인-특화 함수 세트
    • 예제 데이터 확보 가능
    • 프로덕션 수준의 정확도(85%+) 필요
  3. 개인정보 보호와 레이턴시가 최우선

    • 의료 기록, 금융 데이터 처리
    • 음성 명령 기반 스마트 어시스턴트
    • 인터넷 연결이 불안정한 지역
  4. 복합 시스템의 가벼운 에지 모듈

    • 로컬: FunctionGemma (일상 명령)
    • 클라우드: Gemma 3 27B (고급 추론)

FunctionGemma가 부적합한 경우

  • 임의의 일반 질문 응답이 필요한 경우 (일반 Gemma 3 추천)
  • 정의되지 않은 새로운 함수를 즉흥적으로 생성해야 하는 경우
  • Zero-shot 프롬프팅만으로 충분한 경우 (대형 모델 추천)

기술 깊이: Fine-tuning 성능의 과학

FunctionGemma의 성공 비결은 특화된 훈련입니다. 구글이 공개한 Mobile Actions 데이터셋과 Fine-tuning 레시피를 통해 현황을 이해할 수 있습니다.

데이터셋 구성:

  • 도구(함수) 정의: 8가지 기본 시스템 함수
    • turnOnFlashlight(), turnOffFlashlight()
    • createContact(), sendEmail()
    • showMap(), openWiFiSettings()
    • createCalendarEvent()
  • 사용자 입력 예제: ~1,000개
  • 시스템 프롬프트 (현재 시간, 날짜 등의 컨텍스트)
  • 기댓값: 정확한 함수 호출 시퀀스

Fine-tuning 결과:

Zero-shot 정확도:  58%
Fine-tuning 후:    85%
개선도:            +27 percentage points

이 27%의 개선은 전문화의 가치를 명확히 보여줍니다. 전문 모델이 일반 모델보다 4~5배 더 신뢰할 수 있습니다.

Why it matters:

  • 엣지 AI가 실무에서 작동하려면 정확도가 중요합니다. FunctionGemma는 작은 데이터셋(100~1,000개 예제)만으로도 프로덕션 수준 정확도를 달성 가능함을 입증했습니다.

양자화 최적화: 배포 효율성

양자화(Quantization)는 모델을 더 작게 압축하되, 정확도 손실을 최소화하는 기술입니다.

양자화 방식 모델 크기 정확도 사용 시나리오
BF16 (원본) 288MB 100% 고성능 기기 (Pixel 8, iPhone 15 Pro)
INT8 ~144MB 98~99% 일반 스마트폰 (2020년 이후)
INT4 ~72MB 95%+ 저사양 기기 (Jetson Nano)
QAT (모바일) ~288MB 70% 모바일 배포 (매우 빠른 인퍼런스)

구글의 양자화 전략:

  • 원본: BF16 (최대 정확도)
  • 프로덕션: 양자화 인식 훈련(QAT) → ~70% 정확도 유지하면서 모바일 최적화

Why it matters:

  • 300MB 모델을 70MB로 줄일 수 있어, 느린 인터넷에서도 빠르게 다운로드할 수 있습니다.
  • 메모리 제약이 있는 저사양 기기에서도 배포 가능합니다.

개인정보 보호와 보안

클라우드 AI의 문제점:

  • 음성 명령 → 텍스트 변환 → 클라우드 서버 전송
  • 서버에서 결과 계산 후 기기로 반환
  • 매 순간 사용자 데이터가 네트워크를 통과

FunctionGemma의 해결책:

  • 모든 처리가 기기 내에서 일어남
  • 데이터가 외부로 나가지 않음 → 100% 로컬 프라이버시
  • GDPR, CCPA 같은 규제 자동 준수

실제 시나리오:

클라우드 AI:
사용자 음성 → 서버 전송 → 스피치-투-텍스트 → 모델 처리 → 결과 반환
                ↑ 문제: 연락처, 위치 정보 노출

FunctionGemma:
사용자 음성 → 로컬 STT → 로컬 모델 → 로컬 함수 실행
                        ↑ 안전: 모든 것이 기기 내부

Why it matters:

  • 의료 기록, 금융 정보, 개인 연락처 같은 민감 데이터를 다룰 때 필수입니다.
  • 기업 고객(금융, 헬스케어, 제조)은 온프레미스 데이터 정책을 준수해야 하며, FunctionGemma가 그 해결책입니다.

비용 효율성: 클라우드 대체

비용 구조 비교 (가정: 월 100만 함수 호출):

항목 클라우드 API FunctionGemma 로컬
초기 개발 낮음 (API 호출) 중간 (Fine-tuning)
월간 API 비용 $100~$500 $0
인프라 비용 $500~$2,000 사용자 기기 (무료)
데이터 프라이버시 낮음 매우 높음
레이턴시 100~500ms <50ms
12개월 총 비용 $8,000~$24,000 $0 (일회성 Fine-tuning)

Break-even point: 약 3~6개월

Why it matters:

  • 스타트업과 중소 기업은 API 비용 부담을 제거하고 수익성을 높일 수 있습니다.
  • 규모가 커질수록 절감액은 기하급수적으로 증가합니다.

결론

FunctionGemma는 엣지 AI 에이전트의 새로운 표준을 제시합니다. 270M 파라미터의 초소형 크기로도 함수 호출을 신뢰할 수 있게 수행하며, Fine-tuning으로 58%에서 85%로 정확도를 끌어올릴 수 있습니다. 스마트폰과 브라우저에서 100% 로컬 실행되므로 완벽한 개인정보 보호와 밀리초 단위 응답을 보장합니다.

개발자는 Hugging Face, Kaggle, Vertex AI에서 즉시 모델을 받아 LiteRT, Ollama, vLLM 등 다양한 도구로 배포할 수 있습니다. 스마트홈, 모바일 어시스턴트, 게임 제어 등 정의된 API 표면을 가진 모든 도메인에서 실무 수준의 성능을 달성할 수 있습니다.

FunctionGemma는 클라우드 의존성을 제거하고, 개인정보를 보호하며, 비용을 절감하는 프로덕션-레디 솔루션입니다. 온디바이스 에이전트 구축을 고려 중이라면 즉시 검토할 가치가 있습니다.


References

이 글은 2025년 12월 19일 기준 공개된 최신 정보로 작성되었습니다.

반응형