TL;DRLLM data lineage는 "데이터(스냅샷) → 변환 → 학습 실행 → 산출물(가중치/평가)"의 연결을 메타데이터로 증빙하는 설계입니다. PROV는 provenance(출처/과정) 모델의 표준 개념을 제공합니다.학습셋 manifest는 "학습에 사용된 데이터의 '정확한 스냅샷'과 필터/샘플링/전처리 조건"을 고정하는 파일(또는 레코드)이고, 재현성의 출발점입니다. (아래 필드 템플릿 제공)파이프라인 lineage 수집은 MLMD(아티팩트-실행-이벤트 그래프) 또는 OpenLineage(실행 이벤트 표준) 같은 방식으로 구현합니다.실무에서 실패하는 지점은 3가지가 대부분입니다: 스냅샷 비고정, 전처리/필터 버전 미기록, 환경·비결정성(Determinism) 미관리.본문TOC정의: LLM da..