Main Content

이 번역 페이지는 최신 내용을 담고 있지 않습니다. 최신 내용을 영문으로 보려면 여기를 클릭하십시오.

에이전트

SARSA, DQN, DDPG, PPO와 같이 널리 쓰이는 알고리즘을 사용하여 강화 학습 에이전트를 만들고 구성하기

강화 학습 에이전트는 환경으로부터 관측값과 보상을 받습니다. 에이전트는 정책을 사용하여 관측값과 보상에 기반한 행동을 선택하고 행동을 환경으로 반환합니다. 훈련이 진행되는 동안 에이전트는 행동, 관측값, 보상에 기반하여 정책 파라미터를 계속해서 업데이트합니다. 이를 통해 에이전트는 주어진 환경과 보상 신호에 대한 최적의 정책을 학습할 수 있습니다.

Reinforcement Learning Toolbox™는 SARSA, DQN, DDPG, PPO와 같이 널리 쓰이는 여러 알고리즘을 사용하는 강화 학습 에이전트를 제공합니다. 사용자 지정 에이전트를 만들어 다른 에이전트 알고리즘을 구현할 수도 있습니다.

자세한 내용은 강화 학습 에이전트 항목을 참조하십시오. 정책 표현 정의에 대한 자세한 내용은 Create Policies and Value Functions 항목을 참조하십시오.

강화 학습 디자이너강화 학습 에이전트 설계, 훈련 및 시뮬레이션

블록

RL Agent강화 학습 에이전트

함수

모두 확장

rlQAgentQ-러닝 강화 학습 에이전트
rlSARSAAgentSARSA 강화 학습 에이전트
rlDQNAgentDeep Q-network (DQN) reinforcement learning agent
rlPGAgentPolicy gradient (PG) reinforcement learning agent
rlDDPGAgentDeep deterministic policy gradient (DDPG) reinforcement learning agent
rlTD3AgentTwin-delayed deep deterministic (TD3) policy gradient reinforcement learning agent
rlACAgentActor-critic (AC) reinforcement learning agent
rlSACAgentSoft actor-critic (SAC) reinforcement learning agent
rlPPOAgentProximal policy optimization (PPO) reinforcement learning agent
rlTRPOAgentTrust region policy optimization (TRPO) reinforcement learning agent
rlQAgentOptionsQ-러닝 에이전트에 대한 옵션
rlSARSAAgentOptionsOptions for SARSA agent
rlDQNAgentOptionsDQN 에이전트에 대한 옵션
rlPGAgentOptionsOptions for PG agent
rlDDPGAgentOptionsDDPG 에이전트에 대한 옵션
rlTD3AgentOptionsOptions for TD3 agent
rlACAgentOptionsOptions for AC agent
rlPPOAgentOptionsOptions for PPO agent
rlTRPOAgentOptionsOptions for TRPO agent
rlSACAgentOptionsOptions for SAC agent
rlAgentInitializationOptions강화 학습 에이전트를 초기화하는 옵션
rlMBPOAgentModel-based policy optimization (MBPO) reinforcement learning agent
rlMBPOAgentOptionsOptions for MBPO agent
getActorExtract actor from reinforcement learning agent
getCriticExtract critic from reinforcement learning agent
setActorSet actor of reinforcement learning agent
setCriticSet critic of reinforcement learning agent
getActionObtain action from agent, actor, or policy object given environment observations
rlReplayMemoryReplay memory experience buffer
rlPrioritizedReplayMemoryReplay memory experience buffer with prioritized sampling
appendAppend experiences to replay memory buffer
sampleSample experiences from replay memory buffer
resizeResize replay memory experience buffer
allExperiencesReturn all experiences in replay memory buffer
getActionInfo강화 학습 환경, 에이전트 또는 경험 버퍼에서 행동 데이터 사양 가져오기
getObservationInfo강화 학습 환경, 에이전트 또는 경험 버퍼에서 관측값 데이터 사양 가져오기
resetReset environment, agent, experience buffer, or policy object

도움말 항목

에이전트 기본 사항

에이전트 유형

사용자 지정 에이전트