Q-Learning 기초부터 CartPole 적용까지: 강화학습 첫 번째 알고리즘 배우기강화학습을 배우다 보면 가장 먼저 접하게 되는 알고리즘이 바로 Q-Learning입니다.앞서 OpenAI Gym으로 첫 에이전트 만들기에서는 무작위(Random) 에이전트를 CartPole 환경에 적용했는데요, 이번에는 그보다 훨씬 똑똑한 Q-Learning 기반 에이전트를 직접 만들어보겠습니다.1. Q-Learning이란?Q-Learning은 “어떤 상태(state)에서 어떤 행동(action)을 하면 얼마나 좋은가”를 학습하는 방법입니다. 여기서 Q는 Quality의 약자로, 각 행동의 '질'을 수치로 표현한다고 보면 됩니다.핵심 개념Q-Learning은 Q 테이블을 사용해 상태와 행동의 조합마다 기대되는 보상을 ..