반응형

ReinforcementLearning 4

Magistral Small 24B: Mistral의 Apache 2.0 오픈소스 강화학습 모델

TL;DRMagistral Small(24B)은 Mistral이 소개한 강화학습 중심 LLM으로, 상용 모델과 견줄 만한 수학·코드 추론 능력을 보여주면서도 완전 오픈소스로 공개된 점이 핵심입니다. 자체 RL 스택으로 훈련되어 reasoning, multilingual, multimodal 처리 성능이 향상되었으며 Apache 2.0 라이선스 덕분에 재사용 자유도가 높습니다.본문Magistral 모델 개요Mistral의 Magistral 프로젝트는 "pure RL from scratch" 접근법으로, SFT(지도학습) 없이 강화학습(Reinforcement Learning, RL)만으로 모델을 훈련하는 새로운 파이프라인입니다.Magistral Medium은 상위 모델로, 이러한 RL 기반 학습을 통해 A..

AI 2025.10.21

머신러닝 기본 개념: 지도·비지도·강화학습 쉽게 이해하기

1. 머신러닝(Machine Learning)이란?머신러닝은 컴퓨터가 데이터를 학습하여 스스로 규칙을 찾아내고 예측을 수행하는 기술입니다.즉, 사람이 ‘규칙’을 직접 알려주는 대신, 컴퓨터가 ‘예시 데이터’를 보고 규칙을 스스로 찾아냅니다.1.1 일상 속의 머신러닝 예시스팸 메일 필터: 스팸과 정상 메일의 패턴을 학습하여 자동 분류음성 인식: 수많은 음성 데이터로 발음을 학습추천 시스템: 시청·구매 이력 기반 상품 추천자율주행 자동차: 도로 영상·센서 데이터로 주행 패턴 학습2. 머신러닝의 세 가지 학습 방식머신러닝은 크게 지도학습, 비지도학습, 강화학습으로 나눕니다.2.1 지도학습 (Supervised Learning)**정답(Label)**이 있는 데이터로 학습입력(X) → 모델 → 출력(y) 예측예..

AI/Infrastructure 2025.08.11

강화학습 쉽게 시작하기: OpenAI Gym으로 첫 AI 에이전트 만들기

강화학습 쉽게 시작하기: OpenAI Gym으로 첫 AI 에이전트 만들기AI가 스스로 배우고, 시행착오를 거치며 점점 더 똑똑해진다면 어떨까요? 강화학습(Reinforcement Learning)은 바로 그런 학습 방식입니다. 사람이 말로 알려주지 않아도, 경험을 통해 배우는 인공지능이죠.이 글에서는 초보자도 이해할 수 있도록, OpenAI에서 제공하는 Gym이라는 도구를 이용해 직접 AI 에이전트를 만들어보는 과정을 안내합니다. 단순한 예제로 시작해, 나중에는 게임을 스스로 클리어하는 AI를 만드는 기반이 될 수 있습니다.1. 강화학습이란? 쉽게 설명하기강화학습은 컴퓨터가 **보상(reward)**을 최대화하는 방향으로 학습하는 방식입니다. 이 개념은 현실에서도 흔히 볼 수 있습니다.예시:아이가 자전거..

AI 2025.07.09

MCP(Monte Carlo Prediction)란? 강화학습 기초 개념과 파이썬 예제로 쉽게 이해하기

MCP(Monte Carlo Prediction)란 무엇인가요?강화학습에서는 에이전트가 환경과 상호작용하면서 어떤 상태(state)가 얼마나 좋은지를 학습하게 됩니다. 이때 상태의 가치를 예측하는 대표적인 방법 중 하나가 MCP(Monte Carlo Prediction) 입니다.예시로 쉽게 설명드리겠습니다예를 들어, 어떤 게임을 여러 번 플레이한 뒤 특정 위치에서 시작하면 평균적으로 200점이 나온다는 사실을 알게 되었다고 가정해보겠습니다. 이렇게 여러 번의 경험을 바탕으로 기대 보상을 계산하는 방식이 바로 MCP입니다.즉, 한 번의 경험으로 결정하지 않고, 여러 번의 시도를 통해 어떤 상태에서 얼마만큼의 보상을 기대할 수 있는지를 예측하는 방식입니다.MCP의 핵심 아이디어전체 에피소드(처음부터 끝까지의..

AI 2025.07.04
반응형