Main Content

Reinforcement Learning Toolbox

강화 학습을 사용하여 정책 설계 및 훈련

Reinforcement Learning Toolbox™는 DQN, PPO, SAC, DDPG를 포함한 강화 학습 알고리즘을 사용하여 정책을 훈련시킬 수 있는 앱, 함수 및 Simulink® 블록을 제공합니다. 이러한 정책을 사용하여 리소스 할당, 로보틱스, 자율 시스템과 같은 복잡한 응용 사례를 위한 제어기와 의사 결정 알고리즘을 구현할 수 있습니다.

툴박스를 사용하면 심층 신경망 또는 룩업 테이블을 사용하여 정책 및 가치 함수를 표현하고 MATLAB® 또는 Simulink에서 모델링된 환경과의 상호 작용을 통해 이러한 정책 및 가치 함수를 훈련할 수 있습니다. 툴박스에서 제공하는 단일 또는 다중 에이전트 강화 학습 알고리즘을 실행하거나 직접 알고리즘을 개발할 수 있습니다. 하이퍼파라미터 설정을 사용해 보고, 훈련 진행률을 모니터링하고, 훈련된 에이전트를 앱을 통해 대화형 방식으로 또는 프로그래밍 방식으로 시뮬레이션할 수 있습니다. 훈련 성능을 개선하기 위해 여러 CPU, GPU, 컴퓨터 클러스터, 클라우드에서 병렬로 시뮬레이션을 실행할 수 있습니다(Parallel Computing Toolbox™ 및 MATLAB Parallel Server™ 사용).

ONNX™ 모델 형식을 통해 기존 정책을 TensorFlow™ Keras 및 PyTorch와 같은 딥러닝 프레임워크에서 가져올 수 있습니다(Deep Learning Toolbox™ 사용). 최적화된 C, C++, CUDA® 코드를 생성하여 마이크로컨트롤러 및 GPU에 훈련된 정책을 배포할 수 있습니다. 툴박스에는 시작하는 데 도움이 되는 참조 예제가 포함되어 있습니다.

Reinforcement Learning Toolbox 시작하기

Reinforcement Learning Toolbox의 기본 사항 배우기

환경

강화 학습 환경의 동특성 및 출력값 모델링

에이전트

강화 학습 에이전트 생성 및 구성

정책 및 가치 함수

액터, 크리틱 같은 정책 및 가치 함수 근사기 정의

훈련 및 시뮬레이션

강화 학습 에이전트 훈련 및 시뮬레이션하기

정책 배포

코드 생성 및 훈련된 정책 배포

응용 사례

강화 학습을 적용하는 방법에 대한 예제