강화학습 예제를 찾아보면 죄다 게임 투성이인데
꼭 게임이 아니어도, 결국은 적절한 reward만 정의할 수 있다면, state가 바뀌는 상황에 대해서도 기계가 얼마든지 적응하며 좋은 결과를 내는 반복수행을 하게끔 시킬 수 있게 된다는 것이다.

+ Recent posts