이 번역 페이지는 최신 내용을 담고 있지 않습니다. 최신 내용을 영문으로 보려면 여기를 클릭하십시오.
훈련 및 검증
강화 학습 에이전트 훈련 및 시뮬레이션하기
강화 학습 에이전트는 최적의 정책을 학습하기 위해 반복적인 시행착오 과정을 거치면서 환경과 상호 작용합니다. 에이전트는 훈련이 진행되는 동안 정책 표현의 파라미터를 조정하여 장기 보상을 최대화합니다. Reinforcement Learning Toolbox™는 시뮬레이션을 통해 에이전트를 훈련하고 훈련 결과를 검증하는 함수를 제공합니다. 자세한 내용은 강화 학습 에이전트 훈련시키기 항목을 참조하십시오.
앱
강화 학습 디자이너 | 강화 학습 에이전트 설계, 훈련 및 시뮬레이션 (R2021a 이후) |
함수
도움말 항목
훈련 및 시뮬레이션 기본 사항
- 강화 학습 에이전트 훈련시키기
지정된 환경 내에서 에이전트를 훈련시켜 최적의 정책을 찾습니다. - 기본 그리드 월드에서 강화 학습 에이전트 훈련시키기
MATLAB®에서 그리드 월드를 풀도록 Q-러닝 및 SARSA 에이전트를 훈련시킵니다. - MDP 환경에서 강화 학습 에이전트 훈련시키기
일반 마르코프 결정 과정 환경에서 강화 학습 에이전트를 훈련시킵니다. - Simulink 환경 만들기 및 에이전트 훈련시키기
Simulink®에서 훈련 환경으로 모델링된 플랜트에 강화 학습을 사용하여 제어기를 훈련시킵니다. - Train Reinforcement Learning Agent for Simple Contextual Bandit Problem
Train Q and DQN agents to solve a contextual bandit problem. - Log Training Data to Disk
Log a variety of data to disk while training an agent. - Train Agent or Tune Environment Parameters Using Parameter Sweeping
Tune a DDPG agent using hyperparameter sweeping.
강화 학습 디자이너 앱 사용하기
- Design and Train Agent Using Reinforcement Learning Designer
Design and train a DQN agent for a cart-pole system using the Reinforcement Learning Designer app. - Specify Simulation Options in Reinforcement Learning Designer
Interactively specify options for simulating reinforcement learning agents using the Reinforcement Learning Designer app. - Specify Training Options in Reinforcement Learning Designer
Interactively specify options for training reinforcement learning agents using the Reinforcement Learning Designer app.
다중 프로세스 및 GPU 사용하기
- Train Agents Using Parallel Computing and GPUs
Accelerate agent training by running simulations in parallel on multiple cores, GPUs, clusters or cloud resources. - Train AC Agent to Balance Cart-Pole System Using Parallel Computing
Train a AC agent for a discrete action space environment using asynchronous parallel computing. - Train DQN Agent for Lane Keeping Assist Using Parallel Computing
Train a DQN agent for an automated driving application using parallel computing.
다중 에이전트 훈련
- 여러 개의 에이전트가 협업해서 작업을 수행하도록 훈련시키기
두 개의 연속 행동 공간 PPO 에이전트가 협업하여 객체를 옮기도록 훈련시킵니다. - Train Multiple Agents for Area Coverage
Train three discrete action space PPO agents to explore a grid-world environment in a collaborative-competitive manner. - Train Multiple Agents for Path Following Control
Train a DQN and a DDPG agent to collaboratively perform adaptive cruise control and lane keeping assist to follow a path.
이중 적분기 시스템을 제어하도록 에이전트 훈련시키기
- Compare DDPG Agent to LQR Controller
Train a DDPG agent to control a second-order dynamic system modeled in MATLAB and compare it to an LQR controller. - Train PG Agent with Baseline to Control Discrete Action Space System
Train a PG agent with a baseline to control a discrete action space double integrator system modeled in MATLAB.
카트-폴 시스템의 균형을 유지하도록 에이전트 훈련시키기
- 카트-폴 시스템의 균형을 유지하도록 DQN 에이전트 훈련시키기
MATLAB에서 모델링된 카트-폴 시스템의 균형을 유지하도록 DQN 에이전트를 훈련시킵니다. - Train PG Agent to Balance Cart-Pole System
Train a PG agent to balance a discrete action space cart-pole system modeled in MATLAB. - Train AC Agent to Balance Cart-Pole System
Train a AC agent to balance a discrete action space cart-pole system modeled in MATLAB. - 카트-폴 시스템이 위쪽으로 똑바로 서서 균형을 유지하도록 DDPG 에이전트 훈련시키기
Simscape™ Multibody™에서 모델링된 카트-폴 시스템이 위쪽으로 똑바로 서서 균형을 유지하도록 DDPG 에이전트를 훈련시킵니다. - Train MBPO Agent to Balance Cart-Pole System
A model-based reinforcement learning agent learns a model of its environment that it can use to generate additional experiences for training.
진자가 위쪽으로 똑바로 서서 균형을 유지하도록 에이전트 훈련시키기
- 진자가 위쪽으로 똑바로 서서 균형을 유지하도록 DQN 에이전트 훈련시키기
Simulink에서 모델링된 진자가 위쪽으로 똑바로 서서 균형을 유지하도록 DQN 에이전트를 훈련시킵니다. - 진자가 위쪽으로 똑바로 서서 균형을 유지하도록 DDPG 에이전트 훈련시키기
Simulink에서 모델링된 진자의 균형을 유지하도록 DDPG 에이전트를 훈련시킵니다. - Train DDPG Agent to Swing Up and Balance Pendulum with Bus Signal
Train a DDPG agent to balance a pendulum Simulink model that contains observations in a bus signal. - Train DDPG Agent to Swing Up and Balance Pendulum with Image Observation
Train a DDPG agent using an image-based observation signal. - Create DQN Agent Using Deep Network Designer and Train Using Image Observations
Create a reinforcement learning agent using the Deep Network Designer app from the Deep Learning Toolbox™.
제어 작업을 수행하도록 에이전트 훈련시키기
- 강화 학습을 사용하여 PI 제어기 조정하기
TD3 에이전트를 사용하여 PI 제어기의 이득을 조정합니다. - Train SAC Agent for Ball Balance Control
Train a SAC agent to balance a ball on a flat surface using a robot arm. - Train Reinforcement Learning Agents to Control Quanser QUBE Pendulum
Train SAC and PPO agents to balance the Quanser QUBE rotational inverted pendulum. - Train TD3 Agent for PMSM Control
Train a TD3 agent to control the currents in a permanent magnet synchronous motor. - Train DQN Agent with LSTM Network to Control House Heating System
Train a DQN agent with a recurrent network to control the temperature of an house. - Train Reinforcement Learning Agent with Constraint Enforcement
Train a DDPG agent with actions constrained using the Constraint Enforcement block.
로봇을 제어하도록 에이전트 훈련시키기
- 비행 로봇을 조종하도록 DDPG 에이전트 훈련시키기
비행 로봇 모델을 조종하도록 DDPG 에이전트를 훈련시킵니다. - Train PPO Agent for a Lander Vehicle
Train a PPO agent to land a discrete action space flying robot. - Train Biped Robot to Walk Using Reinforcement Learning Agents
Compare DDPG and TD3 agent for the control a biped walking robot modeled in Simscape Multibody.
제어 사양에서 보상 생성하기
- Generate Reward Function from a Model Predictive Controller for a Servomotor
Generate a reward function from an MPC controller applied to a servomotor and use it to train a TD3 agent. - Generate Reward Function from a Model Verification Block for a Water Tank System
Generate a reward function from an model verification block applied to a water tank system and use it to train a TD3 agent.
모방 학습
- Imitate MPC Controller for Lane Keeping Assist
Train a deep neural network to imitate the behavior of a model predictive controller within a lane keeping assist system. - Imitate Nonlinear MPC Controller for Flying Robot
Train a deep neural network to imitate the behavior of a nonlinear model predictive controller for a flying robot. - Train DDPG Agent with Pretrained Actor Network
Train a DDPG agent using an actor network that has been previously trained using supervised learning.
자동차 응용 사례를 위한 에이전트 훈련시키기
- 차선 유지 보조를 위해 DQN 에이전트 훈련시키기
차선 유지 보조 응용 사례를 위해 DQN 에이전트를 훈련시킵니다. - 적응형 크루즈 컨트롤을 위해 DDPG 에이전트 훈련시키기
적응형 크루즈 컨트롤 응용 사례를 위해 DDPG 에이전트를 훈련시킵니다. - Train DDPG Agent for Path-Following Control
Train a DDPG agent for a lane following application. - Train PPO Agent for Automatic Parking Valet
Train a discrete action space PPO agent to park a car in an open parking space.
기타 응용 사례
- Deep Reinforcement Learning for Optimal Trade Execution
This example shows how to use the Reinforcement Learning Toolbox™ and Deep Learning Toolbox™ to design agents for optimal trade execution. - Train DQN Agent for Beam Selection
Train a deep Q-network (DQN) reinforcement learning agent for beam selection in a 5G new radio communications system. - Water Distribution System Scheduling Using Reinforcement Learning
Train a DQN agent to optimally activate pumps in a water distribution system.
사용자 지정 에이전트 및 훈련 알고리즘 개발하기
- Train Reinforcement Learning Policy Using Custom Training Loop
Train a reinforcement learning policy using your own custom training loop. - Custom Training Loop with Simulink Action Noise
Use a custom training loop to train a continuous action space reinforcement learning policy in Simulink when action noise is generated within the model. - Create and Train Custom PG Agent
Create a custom PG agent and train it using the built-in train function. - Create and Train Custom LQR Agent
Create a custom agent that solves an LQR problem and train it using the built-in train function. - Model-Based Reinforcement Learning Using Custom Training Loop
Create a model-based reinforcement learning agent using a custom training loop.
에이전트 및 정책 배포하기
- Run SIL and PIL Verification for Reinforcement Learning
Verify a reinforcement learning agent in software-in-the-loop and processor-in-the-loop modes. - Generate Policy Block for Deployment
Generate a policy block to deploy a trained policy.