rlDDPGAgent
DDPG(심층 결정적 정책 경사) 강화 학습 에이전트
설명
DDPG(심층 결정적 정책 경사) 알고리즘은 연속 행동-공간이 있는 환경을 위한 오프-폴리시 액터-크리틱 방법입니다. DDPG 에이전트는 결정적 정책을 학습하는 동시에 Q-값 함수 크리틱을 사용하여 최적의 정책 값을 추정합니다. 이 에이전트는 타깃 액터 및 크리틱뿐 아니라 경험 버퍼를 특징으로 합니다. DDPG 에이전트는 오프라인 훈련(환경 없이, 저장된 데이터에서 훈련)을 지원합니다.
자세한 내용은 DDPG(심층 결정적 정책 경사) 에이전트 항목을 참조하십시오. 다양한 유형의 강화 학습 에이전트에 대한 자세한 내용은 강화 학습 에이전트 항목을 참조하십시오.
생성
구문
설명
관측값 사양과 행동 사양을 사용하여 에이전트 생성
는 주어진 관측값 사양과 행동 사양을 갖는 환경에 대한 심층 결정적 정책 경사 에이전트를 만들며 이때 디폴트 초기화 옵션을 사용합니다. 에이전트의 액터와 크리틱은 관측값 사양 agent
= rlDDPGAgent(observationInfo
,actionInfo
)observationInfo
와 행동 사양 actionInfo
로부터 구축된 디폴트 심층 신경망을 사용합니다. agent
의 ObservationInfo
및 ActionInfo
속성은 각각 observationInfo
및 actionInfo
입력 인수로 설정됩니다.
는 주어진 관측값 사양과 행동 사양을 갖는 환경에 대한 심층 결정적 정책 경사 에이전트를 만듭니다. 에이전트는 agent
= rlDDPGAgent(observationInfo
,actionInfo
,initOpts
)initOpts
객체에 지정된 옵션을 사용하여 구성된 디폴트 신경망을 사용합니다. 초기화 옵션에 대한 자세한 내용은 rlAgentInitializationOptions
를 참조하십시오.
액터와 크리틱을 사용하여 에이전트 생성
에이전트 옵션 지정
는 DDPG 에이전트를 만들고 agent
= rlDDPGAgent(___,agentOptions
)AgentOptions
속성을 agentOptions
입력 인수로 설정합니다. 이 구문은 위에 열거된 구문에 나와 있는 입력 인수 다음에 사용하십시오.
입력 인수
속성
객체 함수
train | Train reinforcement learning agents within a specified environment |
sim | Simulate trained reinforcement learning agents within specified environment |
getAction | Obtain action from agent, actor, or policy object given environment observations |
getActor | Extract actor from reinforcement learning agent |
setActor | Set actor of reinforcement learning agent |
getCritic | Extract critic from reinforcement learning agent |
setCritic | Set critic of reinforcement learning agent |
generatePolicyFunction | Generate MATLAB function that evaluates policy of an agent or policy object |
예제
버전 내역
R2019a에 개발됨