'NLP' 태그의 글 목록

Alibaba Tongyi DeepResearch: 30B 파라미터 오픈소스 에이전트 모델 집중 분석

TL;DR알리바바 Tongyi DeepResearch는 30.5B 파라미터(Large Language Model, LLM)이지만, 매 토큰당 실제 활성 파라미터는 3.3B 수준입니다.합성 데이터 기반 훈련과 MoE(Mixture-of-Experts) 구조 덕분에 2개의 H100 GPU, 500달러 미만으로 훈련이 가능하며, GPT-4o·DeepSeek-V3보다 깊은 연구·추론 성능을 실현합니다.오픈소스(모델, 학습, 추론 코드 제공)로 누구나 활용 가능하며, 벤치마크(32.9%~75%)에서도 SOTA(State-of-the-Art) 성능을 기록했습니다.Tongyi DeepResearch란 무엇인가?Tongyi DeepResearch는 알리바바 Tongyi Lab에서 2025년 9월 17일 공개한 LLM ..

AI 2025.11.03

딥러닝의 핵심 메커니즘, Attention의 원리와 Transformer 아키텍처 이해

TL;DRAttention Mechanism은 모델이 입력 시퀀스의 모든 부분을 동일하게 처리하는 대신, 현재 작업에 가장 관련성 높은 부분에 가중치를 부여하여 집중하게 하는 딥러닝 기법입니다. 이는 인간의 선택적 집중 능력을 모방한 것으로, 2014년 Bahdanau 등이 기계 번역 모델의 고정 크기 인코딩 벡터 문제(병목 현상)를 해결하기 위해 처음 도입했습니다. 이후 2017년 논문 "Attention Is All You Need"에서 Transformer 아키텍처가 소개되며 RNN/CNN 같은 순환/합성곱 구조 없이 오직 Self-Attention만으로 구성되어 NLP 분야의 패러다임을 전환했습니다. Attention은 Query(Q), Key(K), Value(V) 세 벡터의 상호작용을 통해 가..

AI 2025.10.15

순환 신경망(RNN, Recurrent Neural Network) 기초

1) RNN이란 무엇인가?기존의 **Feedforward Neural Network(순전파 신경망)**는 입력을 독립적으로 처리합니다. 하지만 언어, 시계열 데이터처럼 **순서(순차성)**가 중요한 데이터는 이런 구조로 충분히 학습할 수 없습니다.RNN은 과거의 출력을 현재 입력과 함께 고려하여 **“기억”**을 반영할 수 있습니다.즉, **이전 단계(hidden state)**를 다음 단계로 전달하는 구조로, 순차적인 맥락을 이해하는 데 강점을 가집니다.2) RNN의 핵심 구조RNN의 기본 수식은 다음과 같습니다.Hidden state 갱신h_t = tanh(W_hh * h_(t-1) + W_xh * x_t + b_h)출력 계산y_t = W_hy * h_t + b_y여기서x_t: 시점 t의 입력h_t:..

AI 2025.08.20

자연어 처리(NLP) 기초 – 텍스트 데이터 다루기와 감정 분석 실습

1) 자연어 처리(NLP)란?자연어 처리(NLP, Natural Language Processing)는 사람이 사용하는 언어(한국어, 영어, 중국어 등)를 컴퓨터가 이해하고 처리할 수 있도록 만드는 기술입니다.쉽게 말해, 컴퓨터가 “문자열”로만 보던 텍스트를 의미 단위로 인식해 분석하는 과정입니다.활용 예시챗봇 (예: 고객센터 자동 응답)번역기 (예: Google Translate)감정 분석 (긍정/부정 리뷰 판별)텍스트 요약 (기사 핵심 요약)2) 왜 중요한가?데이터의 80% 이상이 비정형 데이터(텍스트, 이미지 등)입니다.그중 텍스트는 이메일, 고객 리뷰, SNS, 문서 등에서 가장 많이 발생하는 데이터로, 비즈니스 인사이트와 의사결정에 큰 역할을 합니다.3) NLP 처리 단계토큰화(Tokenizat..

AI 2025.08.19

RNN이란? – 순서를 기억하는 인공지능 모델

RNN이란? – 순서를 기억하는 인공지능 모델RNN(Recurrent Neural Network)은 시간 순서가 중요한 데이터(시퀀스 데이터)를 처리하는 데 특화된 인공지능 모델입니다.예를 들어, 문장, 음성, 주가, 센서 데이터처럼 이전 정보가 다음 결과에 영향을 주는 문제에서 사용됩니다.쉽게 말하면, 이전 입력을 기억해두고 다음 입력을 이해하는 구조를 가진 신경망입니다.왜 필요한가요?기존의 딥러닝 모델(CNN, MLP 등)은 각 입력을 독립적으로 처리합니다. 하지만 문장처럼 순서가 중요한 데이터는 앞의 정보가 뒤에 큰 영향을 줍니다.이럴 때 RNN이 필요합니다. RNN은 이전 입력을 내부 상태로 기억하면서 다음 입력을 처리합니다.예를 들어:문장의 뜻을 이해하려면 앞 단어를 기억해야 한다.음성 인식에서..

AI 2025.06.25

Transformers로 모델 파인튜닝하기: 개발자 실전 가이드

1. 파인튜닝이란?파인튜닝(fine-tuning)은 사전학습(pretrained)된 Transformer 모델을 내 데이터에 맞게 미세 조정하는 과정입니다.처음부터 학습하는 것보다 적은 데이터와 자원으로 원하는 작업 성능을 얻을 수 있습니다2. 전체 워크플로우 요약데이터셋 로드 및 전처리모델 로드 및 분류 헤드 구성TrainingArguments 설정Trainer 인스턴스 생성trainer.train() 실행(선택) Hub에 모델 업로드3. 실습: IMDB 영화 리뷰 감정 분석3‑1) 라이브러리 설치pip install transformers datasets evaluate3‑2) 데이터 로드 및 토크나이징from datasets import load_datasetfrom transformers impo..

AI 2025.06.19

Hugging Face 입문: 개발자를 위한 AI 시작 가이드

1. Hugging Face란?Hugging Face는 모델 허브(Model Hub), Transformers 라이브러리, Datasets, Spaces(앱 공유 플랫폼) 등을 제공하는 오픈소스 AI 플랫폼입니다.즉, 모델 탐색 → 코드에서 불러오기 → 커스터마이징 → 웹으로 배포까지 가능한 AI 개발자 효자 도구입니다2. 주요 기능 & 장점• Model Hub170만 개 이상의 모델과 40만 개 이상의 데이터셋이 공개되어 있습니다.필요한 모델을 코드 몇 줄로 바로 가져올 수 있습니다.• Transformers 라이브러리NLP는 물론, 이미지·오디오·멀티모달 모델까지 지원.pipeline, Trainer 같은 고수준 API로 몇 줄 코드로 추론이나 학습 가능.• Datasets다양한 도메인의 데이터셋을 ..

AI 2025.06.18

[DL] 임베딩(Embedding)이란 무엇인가?

딥러닝에서 임베딩(Embedding)이란 무엇인가?안녕하세요.오늘은 딥러닝과 자연어처리(NLP) 분야에서 자주 등장하는 개념인 **임베딩(embedding)**에 대해 정중하게 설명드리고자 합니다.임베딩이란?임베딩은 단어, 문장, 이미지 등 복잡한 데이터를 컴퓨터가 이해할 수 있도록 벡터(숫자의 나열)로 바꾸는 기술입니다. 특히 자연어처리에서는 주로 단어를 벡터로 표현할 때 사용됩니다.이론 코멘트: 임베딩 벡터는 '분산 표현(distributed representation)'이라는 개념에 기반합니다.단어를 하나의 숫자가 아닌, 여러 숫자로 표현하여 문맥적인 의미를 반영합니다. (Bengio et al., 2003)왜 임베딩이 필요할까요?컴퓨터는 사람처럼 텍스트의 의미를 이해하지 못합니다.예를 들어, 아래..

AI 2025.05.29

Royfactory

NLP 8

티스토리툴바

« 2026/03 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31