반응형

파이썬강화학습 3

DQN으로 CartPole 정복하기: 딥러닝 기반 강화학습 입문

딥러닝으로 강화학습을? DQN의 시작강화학습을 공부하다 보면, 누구나 한 번쯤 마주치는 개념이 있습니다. 바로 **DQN(Deep Q-Network)**입니다.Q-Learning의 한계를 극복하기 위해 등장한 이 알고리즘은 딥러닝과 강화학습의 만남이라는 점에서 매우 중요한 의미를 가지고 있습니다.이번 글에서는 DQN을 활용해 CartPole 환경을 해결하는 방법을 자세히 소개합니다. 단순히 코드를 따라 하기보다는,이해를 바탕으로 직접 개선하고 실험해볼 수 있도록 이론과 실습을 함께 다룹니다.1. DQN이란 무엇인가요?기존의 Q-Learning은 Q-Table이라는 표 형태로 모든 상태와 행동의 조합에 대한 가치를 저장합니다.하지만 현실 세계는 매우 복잡하고 상태 공간이 방대하기 때문에 Q-Table만으로..

개발 창고/AI 2025.07.11

Q-Learning 기초부터 CartPole 적용까지: 강화학습 첫 번째 알고리즘 배우기

Q-Learning 기초부터 CartPole 적용까지: 강화학습 첫 번째 알고리즘 배우기강화학습을 배우다 보면 가장 먼저 접하게 되는 알고리즘이 바로 Q-Learning입니다.앞서 OpenAI Gym으로 첫 에이전트 만들기에서는 무작위(Random) 에이전트를 CartPole 환경에 적용했는데요, 이번에는 그보다 훨씬 똑똑한 Q-Learning 기반 에이전트를 직접 만들어보겠습니다.1. Q-Learning이란?Q-Learning은 “어떤 상태(state)에서 어떤 행동(action)을 하면 얼마나 좋은가”를 학습하는 방법입니다. 여기서 Q는 Quality의 약자로, 각 행동의 '질'을 수치로 표현한다고 보면 됩니다.핵심 개념Q-Learning은 Q 테이블을 사용해 상태와 행동의 조합마다 기대되는 보상을 ..

개발 창고/AI 2025.07.10

MCP(Monte Carlo Prediction)란? 강화학습 기초 개념과 파이썬 예제로 쉽게 이해하기

MCP(Monte Carlo Prediction)란 무엇인가요?강화학습에서는 에이전트가 환경과 상호작용하면서 어떤 상태(state)가 얼마나 좋은지를 학습하게 됩니다. 이때 상태의 가치를 예측하는 대표적인 방법 중 하나가 MCP(Monte Carlo Prediction) 입니다.예시로 쉽게 설명드리겠습니다예를 들어, 어떤 게임을 여러 번 플레이한 뒤 특정 위치에서 시작하면 평균적으로 200점이 나온다는 사실을 알게 되었다고 가정해보겠습니다. 이렇게 여러 번의 경험을 바탕으로 기대 보상을 계산하는 방식이 바로 MCP입니다.즉, 한 번의 경험으로 결정하지 않고, 여러 번의 시도를 통해 어떤 상태에서 얼마만큼의 보상을 기대할 수 있는지를 예측하는 방식입니다.MCP의 핵심 아이디어전체 에피소드(처음부터 끝까지의..

개발 창고/AI 2025.07.04
반응형