반응형

MLflow 2

AI Sales Forecasting 7: 운영(MLOps) 설계—모니터링·드리프트·재학습·릴리즈

TL;DRAI Sales Forecasting는 "모델 학습"이 끝이 아니라 운영 루프(모니터링→원인분석→재학습/롤백)가 설계의 80%입니다.운영에서 반드시 나눠 모니터링해야 할 것은 3개: 데이터 품질(입력), 드리프트(분포), 성능(라벨 도착 후).배포는 "한 번에 교체"가 아니라 모델 레지스트리 기반 버저닝 + 챔피언/챌린저 + 카나리가 기본입니다.본문TOC사전 요구사항(로그·스키마·지연 라벨)운영 아키텍처: 배치 예측 파이프라인의 표준 형태단계별 절차: “모니터링 3종”을 먼저 만든다검증 방법: 어디를 보면 고장인지 바로 알 수 있나릴리즈 전략: 레지스트리·카나리·롤백트러블슈팅 3종(가장 흔한 사고)실무 체크리스트(배포 전 / 운영 중)FAQ(6개)1) 사전 요구사항(로그·스키마·지연 라벨)AI ..

AI/Technical 2026.02.10

LLM data lineage 설계: 학습셋 manifest와 재현성

TL;DRLLM data lineage는 "데이터(스냅샷) → 변환 → 학습 실행 → 산출물(가중치/평가)"의 연결을 메타데이터로 증빙하는 설계입니다. PROV는 provenance(출처/과정) 모델의 표준 개념을 제공합니다.학습셋 manifest는 "학습에 사용된 데이터의 '정확한 스냅샷'과 필터/샘플링/전처리 조건"을 고정하는 파일(또는 레코드)이고, 재현성의 출발점입니다. (아래 필드 템플릿 제공)파이프라인 lineage 수집은 MLMD(아티팩트-실행-이벤트 그래프) 또는 OpenLineage(실행 이벤트 표준) 같은 방식으로 구현합니다.실무에서 실패하는 지점은 3가지가 대부분입니다: 스냅샷 비고정, 전처리/필터 버전 미기록, 환경·비결정성(Determinism) 미관리.본문TOC정의: LLM da..

AI/Technical 2026.02.01
반응형