Main Content

에이전트

강화 학습 에이전트 생성 및 구성

강화 학습 에이전트는 환경으로부터 관측값과 보상을 받고, 행동을 환경으로 반환합니다. 훈련이 진행되는 동안 에이전트는 주어진 환경에 대한 정책을 개선하기 위해 파라미터를 계속해서 업데이트합니다.

Reinforcement Learning Toolbox™는 Q-러닝, DQN, PG, AC, DDPG, TD3, SAC, PPO와 같이 널리 쓰이는 여러 알고리즘을 사용하는 내장 강화 학습 에이전트를 제공합니다. 사용자 지정 에이전트를 구현할 수도 있습니다.

에이전트에 대한 소개는 강화 학습 에이전트 항목을 참조하십시오. 정책, 가치 함수, 액터 및 크리틱에 대한 소개는 Create Policies and Value Functions 항목을 참조하십시오.

강화 학습 디자이너강화 학습 에이전트 설계, 훈련 및 시뮬레이션 (R2021a 이후)

블록

RL Agent강화 학습 에이전트

함수

모두 확장

rlQAgentQ-러닝 강화 학습 에이전트
rlSARSAAgentSARSA reinforcement learning agent
rlDQNAgentDeep Q-network (DQN) reinforcement learning agent
rlPGAgentPolicy gradient (PG) reinforcement learning agent
rlACAgentActor-critic (AC) reinforcement learning agent
rlPPOAgentProximal policy optimization (PPO) reinforcement learning agent
rlTRPOAgentTrust region policy optimization (TRPO) reinforcement learning agent (R2021b 이후)
rlDDPGAgentDDPG(심층 결정적 정책 경사법) 강화 학습 에이전트
rlTD3AgentTwin-delayed deep deterministic (TD3) policy gradient reinforcement learning agent (R2020a 이후)
rlSACAgentSoft actor-critic (SAC) reinforcement learning agent (R2020b 이후)
rlQAgentOptionsQ-러닝 에이전트에 대한 옵션
rlSARSAAgentOptionsSARSA 에이전트에 대한 옵션
rlDQNAgentOptionsDQN 에이전트에 대한 옵션
rlPGAgentOptionsOptions for PG agent
rlACAgentOptionsOptions for AC agent
rlPPOAgentOptionsOptions for PPO agent
rlTRPOAgentOptionsOptions for TRPO agent (R2021b 이후)
rlDDPGAgentOptionsDDPG 에이전트에 대한 옵션
rlTD3AgentOptionsTD3 에이전트에 대한 옵션 (R2020a 이후)
rlSACAgentOptionsOptions for SAC agent (R2020b 이후)
rlAgentInitializationOptions강화 학습 에이전트를 초기화하는 옵션 (R2020b 이후)
rlConservativeQLearningOptionsRegularizer options object to train DQN and SAC agents (R2023a 이후)
rlBehaviorCloningRegularizerOptionsRegularizer options object to train DDPG, TD3 and SAC agents (R2023a 이후)
rlMBPOAgentModel-based policy optimization (MBPO) reinforcement learning agent (R2022a 이후)
rlMBPOAgentOptionsOptions for MBPO agent (R2022a 이후)
getActorExtract actor from reinforcement learning agent
getCriticExtract critic from reinforcement learning agent
setActorSet actor of reinforcement learning agent
setCriticSet critic of reinforcement learning agent
getActionObtain action from agent, actor, or policy object given environment observations (R2020a 이후)
rlReplayMemoryReplay memory experience buffer (R2022a 이후)
rlPrioritizedReplayMemoryReplay memory experience buffer with prioritized sampling (R2022b 이후)
rlHindsightReplayMemoryHindsight replay memory experience buffer (R2023a 이후)
rlHindsightPrioritizedReplayMemoryHindsight replay memory experience buffer with prioritized sampling (R2023a 이후)
appendAppend experiences to replay memory buffer (R2022a 이후)
sampleSample experiences from replay memory buffer (R2022a 이후)
resize재생 메모리 경험 버퍼의 크기 조정 (R2022b 이후)
allExperiencesReturn all experiences in replay memory buffer (R2022b 이후)
validateExperienceValidate experiences for replay memory (R2023a 이후)
generateHindsightExperiencesGenerate hindsight experiences from hindsight experience replay buffer (R2023a 이후)
getActionInfo강화 학습 환경, 에이전트 또는 경험 버퍼에서 행동 데이터 사양 가져오기
getObservationInfo강화 학습 환경, 에이전트 또는 경험 버퍼에서 관측값 데이터 사양 가져오기
resetReset environment, agent, experience buffer, or policy object (R2022a 이후)

도움말 항목

에이전트 기본 사항

에이전트 유형

사용자 지정 에이전트