MCP(Monte Carlo Prediction)란 무엇인가요?강화학습에서는 에이전트가 환경과 상호작용하면서 어떤 상태(state)가 얼마나 좋은지를 학습하게 됩니다. 이때 상태의 가치를 예측하는 대표적인 방법 중 하나가 MCP(Monte Carlo Prediction) 입니다.예시로 쉽게 설명드리겠습니다예를 들어, 어떤 게임을 여러 번 플레이한 뒤 특정 위치에서 시작하면 평균적으로 200점이 나온다는 사실을 알게 되었다고 가정해보겠습니다. 이렇게 여러 번의 경험을 바탕으로 기대 보상을 계산하는 방식이 바로 MCP입니다.즉, 한 번의 경험으로 결정하지 않고, 여러 번의 시도를 통해 어떤 상태에서 얼마만큼의 보상을 기대할 수 있는지를 예측하는 방식입니다.MCP의 핵심 아이디어전체 에피소드(처음부터 끝까지의..