Grid 월드에서의 반복적 정책평가

정책평가는 정책π 가 고정된 상태에서 상태가치함수 V(s)를 계산하는 것입니다. 그리고 이 과정을 V(s) 변화량이 아주 작아질 때까지 반복하는 것입니다. V(s)의 값이 대칭적으로 나와야 하는데.. 왜 다르게 나오는지 모르겠네요. 문제가 있는 것 같은데 나중에 찾으면 고칠게요 ...

1월 7, 2026 · Jaejin Jang