반응형

featureengineering 4

AI Sales Forecasting 4: 피처 기반 ML로 판매 예측 설계

TL;DRAI Sales Forecasting에서 피처 기반 머신러닝(GBDT)은 “시계열을 회귀 문제로 변환”해 대량 SKU/매장 예측을 안정적으로 확장합니다.핵심은 (1) 라그/롤링/캘린더/외생변수 설계, (2) 누수 방지(point-in-time), (3) 롤링 오리진 백테스트, (4) WAPE 중심 평가, (5) 분위수(quantile)로 불확실성까지 한 번에 엮는 것입니다.이번 편에서는 “실무 파이프라인”을 그대로 따라 만들 수 있게 데이터 스키마, 피처 분류, 학습/검증, 운영 체크리스트를 제공합니다.본문TOC피처 기반 ML 판매 예측의 정의와 범위데이터 스키마: (store, item) 패널을 “롱 포맷”으로 고정피처 설계: 라그/롤링/캘린더/외생변수(Static/Dynamic/Calenda..

AI/Technical 17:29:56

AI Sales Forecasting 판매 예측 데이터 모델링 템플릿 (2)

TL;DRAI Sales Forecasting 프로젝트는 모델보다 데이터 설계(스키마/시간 의미/누수 방지/품질 규칙)에서 승부가 납니다.판매 예측 데이터는 최소한 sales(타깃) + calendar(캘린더/이벤트) + price + promo + inventory/stockout 축으로 나눠 설계하는 게 안전합니다.시계열 피처 조인은 포인트-인-타임(과거 시점 기준) 정합성을 보장해야 누수(leakage)를 막을 수 있습니다.품절(stockout)은 관측 판매를 검열(censored)로 만들고 예측 편향을 유발할 수 있으니, 최소한 stockout_flag는 데이터 계약에 포함하세요.품질 관리는 "문서"가 아니라 검증 가능한 규칙(Expectation Suite)로 자동화하는 게 실무적으로 맞습니다...

AI/Technical 00:36:37

임베딩(Embedding)이란 무엇인가: 머신러닝을 위한 기초 개념

TL;DR임베딩은 범주형·비정형 데이터를 연속적인 수치 벡터로 변환하는 표현 기법이다.이 벡터 표현은 데이터 간 유사도·관계·구조를 보존하며, 머신러닝 모델의 입력으로 사용된다.자연어 처리뿐 아니라 추천 시스템, 그래프 분석, 범주형 피처 처리 전반에 활용되는 ML의 기본 도구다.본문1. 임베딩이란 무엇인가임베딩(Embedding)은 문자, 단어, 카테고리, 노드와 같은 이산적(discrete) 데이터를머신러닝 모델이 다룰 수 있도록 연속적인 수치 공간의 벡터로 매핑하는 방법이다.핵심은 단순한 숫자 치환이 아니라,데이터 간 관계와 의미를 수치 공간에서 유지하는 데 있다.예:단어 → 의미가 비슷한 단어일수록 가까운 벡터상품 ID → 함께 구매되는 상품일수록 가까운 벡터노드 → 연결 구조가 유사할수록 가까운..

AI/Technical 2026.01.19

Feature Engineering이란? 머신러닝 성능을 높이는 핵심 기술!

Feature Engineering이란?Feature Engineering(피처 엔지니어링)은 머신러닝에서 모델이 더 잘 학습할 수 있도록 입력 데이터를 가공하고 변형하는 작업입니다.모델 자체보다도 피처가 얼마나 잘 설계되었느냐가 성능을 좌우합니다.예시로 쉽게 이해하기예를 들어 다음과 같은 고객 데이터가 있다고 해볼게요.고객ID생년월일최근구매일총구매횟수성별0011990-05-012025-06-2010남0022000-12-102025-06-153여이 데이터에서 쓸모 있는 피처를 만들기 위해 할 수 있는 작업은?생년월일 → 나이 변환최근구매일 → 최근 구매로부터 며칠 지났는지 계산성별 → 숫자형으로 인코딩 (예: 남=0, 여=1)실습 예제 (Python + pandas)import pandas as pdfr..

AI 2025.06.29
반응형