반응형

2026/02/01 2

LLM data lineage 설계: 학습셋 manifest와 재현성

TL;DRLLM data lineage는 "데이터(스냅샷) → 변환 → 학습 실행 → 산출물(가중치/평가)"의 연결을 메타데이터로 증빙하는 설계입니다. PROV는 provenance(출처/과정) 모델의 표준 개념을 제공합니다.학습셋 manifest는 "학습에 사용된 데이터의 '정확한 스냅샷'과 필터/샘플링/전처리 조건"을 고정하는 파일(또는 레코드)이고, 재현성의 출발점입니다. (아래 필드 템플릿 제공)파이프라인 lineage 수집은 MLMD(아티팩트-실행-이벤트 그래프) 또는 OpenLineage(실행 이벤트 표준) 같은 방식으로 구현합니다.실무에서 실패하는 지점은 3가지가 대부분입니다: 스냅샷 비고정, 전처리/필터 버전 미기록, 환경·비결정성(Determinism) 미관리.본문TOC정의: LLM da..

AI/Technical 2026.02.01

AI training data governance checklist: 옵트아웃·목적 제한·보관 기간

TL;DR옵트아웃은 “요청 접수 → 데이터/파생물(학습셋·피처·로그) 반영 → 재학습/배포 정책”까지 이어져야 실제로 작동합니다. 목적 제한은 “학습/평가/튜닝/모니터링” 단계를 분리해 목적을 문서화하고, 목적 밖 재사용(=purpose creep)을 시스템적으로 차단해야 합니다. 보관 기간은 "목적 달성에 필요한 기간"을 기준으로 카테고리별 retention schedule을 만들고, 자동 파기·감사 로그까지 묶어야 합니다.EU(European Data Protection Board)는 AI 모델 개발 맥락에서 목적 특정·데이터 최소화·이의제기권을 강하게 연결해 해석합니다. 미국 캘리포니아 CPRA는 고지한 목적에 비해 "합리적으로 필요한 기간"을 넘겨 보관하지 말 것을 법문에 명시합니다.본문TOC정의..

AI/Technical 2026.02.01
반응형