Main Content

에이전트

SARSA, DQN, DDPG, PPO와 같이 널리 쓰이는 알고리즘을 사용하여 강화 학습 에이전트를 만들고 구성하기

강화 학습 에이전트는 환경으로부터 관측값과 보상을 받습니다. 에이전트는 정책을 사용하여 관측값과 보상에 기반한 행동을 선택하고 행동을 환경으로 보냅니다. 훈련이 진행되는 동안 에이전트는 행동, 관측값, 보상에 기반하여 정책 파라미터를 계속해서 업데이트합니다. 이를 통해 에이전트는 주어진 환경과 보상 신호에 대한 최적의 정책을 학습할 수 있습니다.

Reinforcement Learning Toolbox™는 SARSA, DQN, DDPG, PPO와 같이 널리 쓰이는 여러 알고리즘을 사용하는 강화 학습 에이전트를 제공합니다. 사용자 지정 에이전트를 만들어 다른 에이전트 알고리즘을 구현할 수도 있습니다.

자세한 내용은 Reinforcement Learning Agents 항목을 참조하십시오. 정책 표현 정의에 대한 자세한 내용은 Create Policies and Value Functions 항목을 참조하십시오.

강화 학습 디자이너강화 학습 에이전트 설계, 훈련 및 시뮬레이션

함수

모두 확장

rlQAgentQ-러닝 강화 학습 에이전트
rlSARSAAgentSARSA reinforcement learning agent
rlDQNAgentDeep Q-network reinforcement learning agent
rlPGAgentPolicy gradient reinforcement learning agent
rlDDPGAgentDeep deterministic policy gradient reinforcement learning agent
rlTD3AgentTwin-delayed deep deterministic policy gradient reinforcement learning agent
rlACAgentActor-critic reinforcement learning agent
rlPPOAgentProximal policy optimization reinforcement learning agent
rlTRPOAgentTrust region policy optimization reinforcement learning agent
rlSACAgentSoft actor-critic reinforcement learning agent
rlQAgentOptionsQ-러닝 에이전트에 대한 옵션
rlSARSAAgentOptionsOptions for SARSA agent
rlDQNAgentOptionsOptions for DQN agent
rlPGAgentOptionsOptions for PG agent
rlDDPGAgentOptionsOptions for DDPG agent
rlTD3AgentOptionsOptions for TD3 agent
rlACAgentOptionsOptions for AC agent
rlPPOAgentOptionsOptions for PPO agent
rlTRPOAgentOptionsOptions for TRPO agent
rlSACAgentOptionsOptions for SAC agent
rlAgentInitializationOptions강화 학습 에이전트를 초기화하는 옵션
rlMBPOAgentModel-based policy optimization reinforcement learning agent
rlMBPOAgentOptionsOptions for MBPO agent
getActorGet actor from reinforcement learning agent
getCriticGet critic from reinforcement learning agent
setActorSet actor of reinforcement learning agent
setCriticSet critic of reinforcement learning agent
getActionObtain action from agent or actor given environment observations
rlReplayMemoryReplay memory experience buffer
appendAppend experiences to replay memory buffer
sampleSample experiences from replay memory buffer
resetReset environment, agent, experience buffer, or policy object

도움말 항목

에이전트 기본 사항

에이전트 유형

사용자 지정 에이전트