이 번역 페이지는 최신 내용을 담고 있지 않습니다. 최신 내용을 영문으로 보려면 여기를 클릭하십시오.
rlMDPEnv
강화 학습을 위한 마르코프 결정 과정 환경 만들기
설명
마르코프 결정 과정(MDP)은 이산시간 확률 제어 과정입니다. MDP는 결과가 어느 정도는 무작위적이고 어느 정도는 의사 결정자가 제어할 수 있는 상황에서 의사 결정을 모델링할 수 있는 수학적 프레임워크를 제공합니다. MDP는 강화 학습을 사용하여 해결된 최적화 문제를 연구하는 데 유용합니다. rlMDPEnv
를 사용하여 MATLAB®에서 강화 학습을 위한 마르코프 결정 과정 환경을 만듭니다.
속성
객체 함수
getActionInfo | 강화 학습 환경, 에이전트 또는 경험 버퍼에서 행동 데이터 사양 가져오기 |
getObservationInfo | 강화 학습 환경, 에이전트 또는 경험 버퍼에서 관측값 데이터 사양 가져오기 |
sim | Simulate trained reinforcement learning agents within specified environment |
train | Train reinforcement learning agents within a specified environment |
validateEnvironment | Validate custom reinforcement learning environment |
예제
버전 내역
R2019a에 개발됨