mdp 예제

우리는 체인을 통해 가서 터미널 상태에서 끝날 샘플 에피소드를 취할 수 있습니다. 예제 샘플 에피소드는 스테이지1에서 Stage2로 이동하여 승리에서 중지로 이동하는 것입니다. 다음은 몇 가지 샘플 에피소드를 나타내고 있습니다: 예제 모듈은 유효한 MDP 전환 및 보상 행렬을 생성하는 기능을 제공합니다. 마르코프 의사 결정 프로세스에서 우리는 이제 우리가 가는 상태를 더 많이 통제할 수 있습니다. 우리가 행동을 취하기로 결정하는 경우 아래 민주당의 예는 우리가 다시 상태 Stage2 40 %와 Stage1 60 %의 시간에 다시 끝날 것이다. 스테이지2에서 액션 어드밴스2를 선택하는 것과 같은 해당 액션을 선택할 때 다른 상태 전환이 100% 확률로 발생합니다. 간단한 산림 관리 시나리오를 기반으로 MDP 예제를 생성합니다. – S1 S2 승리 정지 – S2 텔레포트 S2 순간 이동 중지 – S1 일시 정지 S1 S2 승리 정지 우리는 이것을 볼 수있는 방법은 상태에서 가서 상태에서 다양한 샘플을 통해 가는 것입니다 우리의 예상 반환입니다. 우리는 더 많은 총 보상을 제공하는 상태를 선호하고 싶습니다.

out – out [0] 전환 확률 매트릭스 P를 포함하고 [1] 보상 매트릭스 R을 포함한다. is_sparse=False인 경우 P는 (A, S, S) 모양이 있는 numpy 배열이고 R은 (S, A)의 모양이 있는 numpy 배열입니다. is_sparse=True인 경우 P와 R은 길이 A의 tuples이며, 각 P[a]는 s, S) 및 각 R[a]은 셰이프의 scipy 스파스 CSr 형식 행렬입니다(S, 1). 상태 값 함수 v(들): state s의 장기 값을 제공합니다. 상태 s에서 시작하는 예상 수익입니다이 방정식을 사용하여 각 상태에 대한 상태 값을 계산할 수 있습니다. «γ=1을 사용한 MRP의 상태 값»을 사용하여 위의 간단한 모델을 가지고 있으므로 업데이트된 상태 값 함수를 사용하여 동시 방정식을 사용하여 상태 값을 계산할 수 있습니다. 상태 값 함수는 정책 π를 따라 상태 s에 얼마나 좋은 알려줍니다. 또는 이것은 매트릭스 형태로 작성될 수 있습니다: 마르코프 의사 결정 프로세스는 에이전트가 내려야 하는 결정을 포함하기 때문에 Markov 보상 프로세스의 확장입니다. 환경의 모든 상태는 마르코프입니다. 마르코프 속성 : «미래는 현재주어진 과거와 독립적»을 요구한다.