'pythonrl' 태그의 글 목록

MCP(Monte Carlo Prediction)란? 강화학습 기초 개념과 파이썬 예제로 쉽게 이해하기

MCP(Monte Carlo Prediction)란 무엇인가요?강화학습에서는 에이전트가 환경과 상호작용하면서 어떤 상태(state)가 얼마나 좋은지를 학습하게 됩니다. 이때 상태의 가치를 예측하는 대표적인 방법 중 하나가 MCP(Monte Carlo Prediction) 입니다.예시로 쉽게 설명드리겠습니다예를 들어, 어떤 게임을 여러 번 플레이한 뒤 특정 위치에서 시작하면 평균적으로 200점이 나온다는 사실을 알게 되었다고 가정해보겠습니다. 이렇게 여러 번의 경험을 바탕으로 기대 보상을 계산하는 방식이 바로 MCP입니다.즉, 한 번의 경험으로 결정하지 않고, 여러 번의 시도를 통해 어떤 상태에서 얼마만큼의 보상을 기대할 수 있는지를 예측하는 방식입니다.MCP의 핵심 아이디어전체 에피소드(처음부터 끝까지의..

AI 2025.07.04

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Royfactory

pythonrl 1

티스토리툴바