Reinforcement Learning Toolbox 시작하기

강화 학습을 사용하여 정책 설계 및 훈련

Reinforcement Learning Toolbox™는 DQN, PPO, SAC, DDPG를 포함한 강화 학습 알고리즘을 사용하여 정책을 훈련시킬 수 있는 앱, 함수 및 Simulink^® 블록을 제공합니다. 이러한 정책을 사용하여 리소스 할당, 로보틱스, 자율 시스템과 같은 복잡한 응용 사례를 위한 제어기와 의사 결정 알고리즘을 구현할 수 있습니다.

툴박스를 사용하면 심층 신경망 또는 룩업 테이블을 사용하여 정책 및 가치 함수를 표현하고 MATLAB^® 또는 Simulink에서 모델링된 환경과의 상호 작용을 통해 이러한 정책 및 가치 함수를 훈련할 수 있습니다. 툴박스에서 제공하는 단일 또는 다중 에이전트 강화 학습 알고리즘을 실행하거나 직접 알고리즘을 개발할 수 있습니다. 하이퍼파라미터 설정을 사용해 보고, 훈련 진행률을 모니터링하고, 훈련된 에이전트를 앱을 통해 대화형 방식으로 또는 프로그래밍 방식으로 시뮬레이션할 수 있습니다. 훈련 성능을 개선하기 위해 여러 CPU, GPU, 컴퓨터 클러스터, 클라우드에서 병렬로 시뮬레이션을 실행할 수 있습니다(Parallel Computing Toolbox™ 및 MATLAB Parallel Server™ 사용).

ONNX™ 모델 형식을 통해 기존 정책을 TensorFlow™ Keras 및 PyTorch와 같은 딥러닝 프레임워크에서 가져올 수 있습니다(Deep Learning Toolbox™ 사용). 최적화된 C, C++, CUDA^® 코드를 생성하여 마이크로컨트롤러 및 GPU에 훈련된 정책을 배포할 수 있습니다. 툴박스에는 시작하는 데 도움이 되는 참조 예제가 포함되어 있습니다.

튜토리얼

MDP 환경에서 강화 학습 에이전트 훈련시키기

일반 마르코프 결정 과정 환경에서 강화 학습 에이전트를 훈련시킵니다.
기본 그리드 월드에서 강화 학습 에이전트 훈련시키기

MATLAB에서 그리드 월드를 풀도록 Q-러닝 및 SARSA 에이전트를 훈련시킵니다.
강화 학습 디자이너를 사용하여 에이전트 설계 및 훈련하기

강화 학습 디자이너 앱을 사용하여 카트-폴 시스템에 대한 DQN 에이전트를 설계하고 훈련시킵니다.
DDPG 에이전트를 사용하여 탱크의 수위 제어하기

Simulink에서 모델링된 플랜트를 훈련 환경으로 설정하여 강화 학습을 사용해 제어기를 훈련시킵니다.

강화 학습 소개

강화 학습이란?

강화 학습은 목표 지향적인 연산 접근법으로, 컴퓨터가 불확실한 동적 환경과 상호 작용하여 작업 수행 방법을 학습하는 유형입니다.
강화 학습 워크플로

문제에 강화 학습을 적용할 때 사용하는 일반적인 워크플로.
제어 시스템 응용 사례를 위한 강화 학습

강화 학습 에이전트를 훈련시켜 플랜트를 제어할 수 있습니다.
Reinforcement Learning Environments

Model environment dynamics using a MATLAB object that generates rewards and observations in response to agents actions.

대화형 학습

Reinforcement Learning Onramp
이 무료 튜토리얼은 약 4시간에 걸쳐 강화 학습 방법에 대한 개요를 대화형 방식으로 제공합니다.