에이전트
강화 학습 에이전트 생성 및 구성
강화 학습 에이전트는 환경으로부터 관측값과 보상을 받고, 행동을 환경으로 반환합니다. 훈련이 진행되는 동안 에이전트는 주어진 환경에 대한 정책을 개선하기 위해 파라미터를 계속해서 업데이트합니다.
Reinforcement Learning Toolbox™는 Q-러닝, DQN, PG, AC, DDPG, TD3, SAC, PPO와 같이 널리 쓰이는 여러 알고리즘을 사용하는 내장 강화 학습 에이전트를 제공합니다. 사용자 지정 에이전트를 구현할 수도 있습니다.
에이전트에 대한 소개는 강화 학습 에이전트 항목을 참조하십시오. 정책, 가치 함수, 액터 및 크리틱에 대한 소개는 Create Policies and Value Functions 항목을 참조하십시오.
앱
강화 학습 디자이너 | 강화 학습 에이전트 설계, 훈련 및 시뮬레이션 (R2021a 이후) |
블록
RL Agent | 강화 학습 에이전트 |
함수
도움말 항목
에이전트 기본 사항
- 강화 학습 에이전트
여러 표준 강화 학습 알고리즘 중 하나를 사용하여 에이전트를 만들거나 자신만의 고유한 사용자 지정 에이전트를 정의할 수 있습니다. - Create Agents Using Reinforcement Learning Designer
Interactively create or import agents for training using the Reinforcement Learning Designer app.
에이전트 유형
- Q-러닝 에이전트
강화 학습을 위한 Q-러닝 에이전트를 만듭니다. - SARSA 에이전트
강화 학습을 위한 SARSA 에이전트를 만듭니다. - DQN(심층 Q-신경망) 에이전트
강화 학습을 위한 DQN 에이전트를 만듭니다. - REINFORCE Policy Gradient (PG) Agent
Vanilla policy gradient agent description and algorithm. - Actor-Critic (AC) Agent
Actor-critic agent description and algorithm. - Proximal Policy Optimization (PPO) Agent
PPO agent description and algorithm. - Trust Region Policy Optimization (TRPO) Agent
TRPO agent description and algorithm. - DDPG(심층 결정적 정책 경사법) 에이전트
강화 학습을 위한 DDPG 에이전트를 만듭니다. - TD3(Twin-Delayed Deep Deterministic: 트윈 지연 심층 결정적) 정책 경사법 에이전트
강화 학습을 위한 TD3 에이전트를 만듭니다. - SAC(Soft Actor-Critic: 소프트 액터-크리틱) 에이전트
강화 학습을 위한 SAC 에이전트를 만듭니다. - Model-Based Policy Optimization (MBPO) Agent
A model-based (MBPO) reinforcement learning agent learns a model of its environment that it can use to generate additional experiences for training.
사용자 지정 에이전트
- Create Custom Reinforcement Learning Agents
Create custom agents. - Create and Train Custom PG Agent
Create a custom PG agent and train it using the built-in train function. - Create and Train Custom LQR Agent
Create a custom agent that solves an LQR problem and train it using the built-in train function.