rlMDPEnv
강화 학습을 위한 마르코프 결정 과정 환경 만들기
설명
마르코프 결정 과정(MDP)은 이산시간 확률 제어 과정입니다. MDP는 결과가 어느 정도는 무작위적이고 어느 정도는 의사 결정자가 제어할 수 있는 상황에서 의사 결정을 모델링할 수 있는 수학적 프레임워크를 제공합니다. MDP는 강화 학습을 사용하여 해결된 최적화 문제를 연구하는 데 유용합니다. rlMDPEnv
를 사용하여 MATLAB®에서 강화 학습을 위한 마르코프 결정 과정 환경을 만듭니다.
속성
객체 함수
getActionInfo | 강화 학습 환경, 에이전트 또는 경험 버퍼에서 행동 데이터 사양 가져오기 |
getObservationInfo | 강화 학습 환경, 에이전트 또는 경험 버퍼에서 관측값 데이터 사양 가져오기 |
sim | Simulate trained reinforcement learning agents within specified environment |
train | Train reinforcement learning agents within a specified environment |
validateEnvironment | Validate custom reinforcement learning environment |
예제
버전 내역
R2019a에 개발됨