rlSARSAAgent
SARSA 강화 학습 에이전트
설명
SARSA 알고리즘은 이산 행동 공간이 있는 환경에 대한 온-폴리시(on-policy) 강화 학습 방법입니다. SARSA 에이전트는 현재의 엡실론-그리디 정책 값을 추정하도록 Q-값 함수 크리틱을 훈련시킵니다(최적의 정책을 직접 학습하려고 하지 않음).
참고
SARSA 에이전트는 순환 신경망을 지원하지 않습니다.
SARSA 에이전트에 대한 자세한 내용은 SARSA 에이전트 항목을 참조하십시오.
다양한 유형의 강화 학습 에이전트에 대한 자세한 내용은 강화 학습 에이전트 항목을 참조하십시오.
생성
설명
는 지정된 크리틱 신경망을 갖는 SARSA 에이전트를 만들고 agent = rlSARSAAgent(critic,agentOptions)AgentOptions 속성을 설정합니다.
입력 인수
속성
객체 함수
train | Train reinforcement learning agents within a specified environment |
sim | Simulate trained reinforcement learning agents within specified environment |
getAction | Obtain action from agent, actor, or policy object given environment observations |
getCritic | Extract critic from reinforcement learning agent |
setCritic | Set critic of reinforcement learning agent |
generatePolicyFunction | Generate MATLAB function that evaluates policy of an agent or policy object |
예제
버전 내역
R2019a에 개발됨