이 번역 페이지는 최신 내용을 담고 있지 않습니다. 최신 내용을 영문으로 보려면 여기를 클릭하십시오.
에이전트
SARSA, DQN, DDPG, PPO와 같이 널리 쓰이는 알고리즘을 사용하여 강화 학습 에이전트를 만들고 구성하기
강화 학습 에이전트는 환경으로부터 관측값과 보상을 받습니다. 에이전트는 정책을 사용하여 관측값과 보상에 기반한 행동을 선택하고 행동을 환경으로 반환합니다. 훈련이 진행되는 동안 에이전트는 행동, 관측값, 보상에 기반하여 정책 파라미터를 계속해서 업데이트합니다. 이를 통해 에이전트는 주어진 환경과 보상 신호에 대한 최적의 정책을 학습할 수 있습니다.
Reinforcement Learning Toolbox™는 SARSA, DQN, DDPG, PPO와 같이 널리 쓰이는 여러 알고리즘을 사용하는 강화 학습 에이전트를 제공합니다. 사용자 지정 에이전트를 만들어 다른 에이전트 알고리즘을 구현할 수도 있습니다.
자세한 내용은 강화 학습 에이전트 항목을 참조하십시오. 정책 표현 정의에 대한 자세한 내용은 Create Policies and Value Functions 항목을 참조하십시오.
앱
강화 학습 디자이너 | 강화 학습 에이전트 설계, 훈련 및 시뮬레이션 |
블록
RL Agent | 강화 학습 에이전트 |
함수
도움말 항목
에이전트 기본 사항
- 강화 학습 에이전트
여러 표준 강화 학습 알고리즘 중 하나를 사용하여 에이전트를 만들거나 자신만의 고유한 사용자 지정 에이전트를 정의할 수 있습니다. - Create Agents Using Reinforcement Learning Designer
Interactively create or import agents for training using the Reinforcement Learning Designer app.
에이전트 유형
- Q-러닝 에이전트
강화 학습을 위한 Q-러닝 에이전트를 만듭니다. - SARSA 에이전트
강화 학습을 위한 SARSA 에이전트를 만듭니다. - DQN(심층 Q-신경망) 에이전트
강화 학습을 위한 DQN 에이전트를 만듭니다. - Policy Gradient (PG) Agents
Create policy gradient agents for reinforcement learning. - DDPG(심층 결정적 정책 경사법) 에이전트
강화 학습을 위한 DDPG 에이전트를 만듭니다. - Twin-Delayed Deep Deterministic (TD3) Policy Gradient Agents
Create TD3 agents for reinforcement learning. - Actor-Critic (AC) Agents
Create actor-critic agents for reinforcement learning. - Proximal Policy Optimization (PPO) Agents
Create PPO agents for reinforcement learning. - Trust Region Policy Optimization (TRPO) Agents
Create TRPO agents for reinforcement learning. - Soft Actor-Critic (SAC) Agents
Create SAC agents for reinforcement learning. - Model-Based Policy Optimization (MBPO) Agents
A model-based (MBPO) reinforcement learning agent learns a model of its environment that it can use to generate additional experiences for training.
사용자 지정 에이전트
- Create Custom Reinforcement Learning Agents
Create agents that use custom reinforcement learning algorithms.