훈련 및 시뮬레이션
강화 학습 에이전트 훈련 및 시뮬레이션하기
훈련이 진행되는 동안 에이전트는 주어진 환경에 대한 최적의 정책을 학습하기 위해 파라미터를 계속해서 업데이트합니다. 시뮬레이션 중에 에이전트는 환경으로부터 관측값과 보상을 받고, 파라미터 업데이트 없이 행동을 환경으로 반환합니다.
Reinforcement Learning Toolbox™는 시뮬레이션을 통해 에이전트를 훈련하고 훈련 결과를 검증하는 함수를 제공합니다. 에이전트 훈련 및 시뮬레이션에 대한 소개는 강화 학습 에이전트 훈련시키기 항목을 참조하십시오.
앱
강화 학습 디자이너 | 강화 학습 에이전트 설계, 훈련 및 시뮬레이션 (R2021a 이후) |
함수
도움말 항목
훈련 및 시뮬레이션 기본 사항
- 강화 학습 에이전트 훈련시키기
지정된 환경 내에서 에이전트를 훈련시켜 최적의 정책을 찾습니다. - 기본 그리드 월드에서 강화 학습 에이전트 훈련시키기
MATLAB®에서 그리드 월드를 풀도록 Q-러닝 및 SARSA 에이전트를 훈련시킵니다. - MDP 환경에서 강화 학습 에이전트 훈련시키기
일반 마르코프 결정 과정 환경에서 강화 학습 에이전트를 훈련시킵니다.
강화 학습 디자이너 앱 사용하기
- Specify Training Options in Reinforcement Learning Designer
Interactively specify options for training reinforcement learning agents using the Reinforcement Learning Designer app. - Specify Simulation Options in Reinforcement Learning Designer
Interactively specify options for simulating reinforcement learning agents using the Reinforcement Learning Designer app. - 강화 학습 디자이너를 사용하여 에이전트 설계 및 훈련하기
강화 학습 디자이너 앱을 사용하여 카트-폴 시스템에 대한 DQN 에이전트를 설계하고 훈련시킵니다. - Tune Hyperparameters Using Reinforcement Learning Designer
Search the hyperparameter space using Reinforcement Learning Designer.
Simulink 환경에 대해 에이전트 훈련시키기
- DDPG 에이전트를 사용하여 탱크의 수위 제어하기
Simulink®에서 모델링된 플랜트를 훈련 환경으로 설정하여 강화 학습을 사용해 제어기를 훈련시킵니다.
다중 프로세스 및 GPU 사용하기
- Train Agents Using Parallel Computing and GPUs
Accelerate agent training by running simulations in parallel on multiple cores, GPUs, clusters or cloud resources. - Train AC Agent to Balance Discrete Cart-Pole System Using Parallel Computing
Train an AC agent to control a discrete action space cart-pole system using asynchronous parallel computing. - Train DQN Agent for Lane Keeping Assist Using Parallel Computing
Train a DQN agent for an automated driving application using parallel computing.
훈련 및 시뮬레이션 고급 사항
- Train PPO Agent with Curriculum Learning for a Lane Keeping Application
Train a PPO agent for a lane keeping assist task by gradually increasing task complexity. - Train DQN Agent Using Hindsight Experience Replay
Train a DQN agent in a navigation environment with sparse rewards. - Train Reinforcement Learning Agent Offline to Control Quanser QUBE Pendulum
Train TD3 agent offline to control a Quanser QUBE pendulum. - Train Biped Robot to Walk Using Evolution Strategy-Reinforcement Learning Agents
Train TD3 agent using evolutionary strategy. - Create DQN Agent Using Deep Network Designer and Train Using Image Observations
Create a reinforcement learning agent using the Deep Network Designer app from the Deep Learning Toolbox™.
훈련 데이터 기록하기 및 하이퍼파라미터 조정하기
- Log Training Data to Disk
Log a variety of data to disk while training an agent. - Train Agent or Tune Environment Parameters Using Parameter Sweeping
Tune a DDPG agent using hyperparameter sweeping. - Tune Hyperparameters Using Bayesian Optimization
Tune reinforcement learning hyperparameters using Bayesian optimization. - Configure Exploration for Reinforcement Learning Agents
Use visualization to configure exploration in reinforcement learning agents.
다중 에이전트 훈련
- 여러 개의 에이전트가 협업해서 작업을 수행하도록 훈련시키기
두 개의 연속 행동 공간 PPO 에이전트가 협업하여 물체를 옮기도록 훈련시킵니다. - Train Multiple Agents for Area Coverage
Train three discrete action space PPO agents to explore a grid-world environment in a collaborative-competitive manner. - Train Multiple Agents for Path Following Control
Train a DQN and a DDPG agent to collaboratively perform adaptive cruise control and lane keeping assist to follow a path.
사용자 지정 에이전트 및 훈련 알고리즘 개발하기
- Train Reinforcement Learning Policy Using Custom Training Loop
Train a reinforcement learning policy using your own custom training loop. - Create and Train Custom PG Agent
Create a custom PG agent and train it using the built-in train function. - Create and Train Custom LQR Agent
Create a custom agent that solves an LQR problem and train it using the built-in train function. - Custom PPO Training Loop With Random Network Distillation
Use a custom training loop to train a custom PPO policy with random network distillation on a pendulum environment with sparse rewards. - Custom Training Loop with Simulink Action Noise
Use a custom training loop to train a continuous action space reinforcement learning policy in Simulink when action noise is generated within the model.
모델 기반의 정책 최적화 에이전트 훈련시키기
- Train MBPO Agent to Balance Continuous Cart-Pole System
A model-based reinforcement learning agent learns a model of its environment that it can use to generate additional experiences for training. - Model-Based Reinforcement Learning Using Custom Training Loop
Create a model-based reinforcement learning agent using a custom training loop.