반응형

featureengineering 2

임베딩(Embedding)이란 무엇인가: 머신러닝을 위한 기초 개념

TL;DR임베딩은 범주형·비정형 데이터를 연속적인 수치 벡터로 변환하는 표현 기법이다.이 벡터 표현은 데이터 간 유사도·관계·구조를 보존하며, 머신러닝 모델의 입력으로 사용된다.자연어 처리뿐 아니라 추천 시스템, 그래프 분석, 범주형 피처 처리 전반에 활용되는 ML의 기본 도구다.본문1. 임베딩이란 무엇인가임베딩(Embedding)은 문자, 단어, 카테고리, 노드와 같은 이산적(discrete) 데이터를머신러닝 모델이 다룰 수 있도록 연속적인 수치 공간의 벡터로 매핑하는 방법이다.핵심은 단순한 숫자 치환이 아니라,데이터 간 관계와 의미를 수치 공간에서 유지하는 데 있다.예:단어 → 의미가 비슷한 단어일수록 가까운 벡터상품 ID → 함께 구매되는 상품일수록 가까운 벡터노드 → 연결 구조가 유사할수록 가까운..

AI/Technical 2026.01.19

Feature Engineering이란? 머신러닝 성능을 높이는 핵심 기술!

Feature Engineering이란?Feature Engineering(피처 엔지니어링)은 머신러닝에서 모델이 더 잘 학습할 수 있도록 입력 데이터를 가공하고 변형하는 작업입니다.모델 자체보다도 피처가 얼마나 잘 설계되었느냐가 성능을 좌우합니다.예시로 쉽게 이해하기예를 들어 다음과 같은 고객 데이터가 있다고 해볼게요.고객ID생년월일최근구매일총구매횟수성별0011990-05-012025-06-2010남0022000-12-102025-06-153여이 데이터에서 쓸모 있는 피처를 만들기 위해 할 수 있는 작업은?생년월일 → 나이 변환최근구매일 → 최근 구매로부터 며칠 지났는지 계산성별 → 숫자형으로 인코딩 (예: 남=0, 여=1)실습 예제 (Python + pandas)import pandas as pdfr..

AI 2025.06.29
반응형