Reinforcement Learning Toolbox

강화 학습을 사용한 정책 설계 및 훈련

Reinforcement Learning Toolbox는 DQN, PPO, SAC 및 DDPG와 같은 강화 학습 알고리즘을 사용하는 정책을 훈련시키는 데 필요한 앱, 함수, Simulink 블록을 제공합니다. 이러한 정책을 사용하여 자원 할당, 로보틱스, 자율 시스템과 같은 복잡한 응용 사례의 제어기 및 의사결정 알고리즘을 구현할 수 있습니다.

이 툴박스를 사용하면 심층 신경망 또는 룩업 테이블을 사용하여 정책 및 가치 함수를 표현할 수 있고 MATLAB 또는 Simulink에서 모델링된 환경과의 상호작용을 통해 이런 정책과 가치 함수를 훈련시킬 수 있습니다. 툴박스에서 제공하는 단일 에이전트 또는 다중 에이전트 강화 학습 알고리즘을 평가하거나 직접 개발할 수 있습니다. 앱을 통한 대화형 방식 또는 프로그래밍 방식으로 하이퍼파라미터 설정을 실험하고 훈련 진행 상황을 모니터링하고 훈련된 에이전트를 시뮬레이션할 수 있습니다. 훈련 성능이 향상되도록 시뮬레이션을 다중 CPU, GPU, 컴퓨터 클러스터 및 클라우드에서 병렬로 실행할 수 있습니다(Parallel Computing Toolbox 및 MATLAB Parallel Server 사용).

ONNX™ 모델 형식을 통해 TensorFlow™ Keras 및 PyTorch 등의 딥러닝 프레임워크에서 기존 정책을 가져올 수 있습니다(Deep Learning Toolbox 사용). 최적화된 C, C++, CUDA^® 코드를 생성하여 훈련된 정책을 마이크로컨트롤러 및 GPU에 배포할 수 있습니다. 툴박스에는 시작을 돕기 위한 참조 예제가 포함되어 있습니다.

강화 학습 에이전트

DQN, PPO, SAC 등 널리 사용되는 알고리즘을 사용하여 모델 없는 강화 학습 에이전트 및 모델 기반 강화 학습 에이전트를 생성할 수 있습니다. 제공되는 템플릿을 사용하여 사용자 지정 알고리즘을 개발할 수도 있습니다. 강화 학습 에이전트 블록을 사용하면 에이전트를 Simulink로 가져올 수 있습니다.

정책 및 학습 알고리즘 | 강화 학습, 3편 (17:51)

문서

강화 학습 디자이너 앱

대화형 방식으로 강화 학습 에이전트를 설계, 훈련, 시뮬레이션할 수 있습니다. 향후 사용 및 배포를 위해 훈련된 에이전트를 MATLAB으로 내보낼 수 있습니다.

문서 | 예제

보상 신호

에이전트의 목표 달성 수준을 측정하는 보상 신호를 생성할 수 있습니다. Model Predictive Control Toolbox 또는 Simulink Design Optimization에 정의된 제어 사양에서 보상 함수를 자동으로 생성할 수 있습니다.

문서

정책 표현

툴박스에서 제안하는 신경망 아키텍처를 사용하여 빠르게 시작할 수 있습니다. Deep Learning Toolbox 레이어와 심층 신경망 디자이너 앱을 사용하여 룩업 테이블을 탐색하거나 직접 신경망 정책을 정의할 수도 있습니다.

문서

강화 학습 훈련

환경과 상호 작용하는 방식으로 또는 기존 데이터를 사용하여 에이전트를 훈련시킬 수 있습니다. 단일 에이전트 및 다중 에이전트 훈련에 대해 알아볼 수 있습니다. 훈련 데이터를 기록 및 확인하고 진행 상황을 모니터링할 수 있습니다.

다중 에이전트 강화 학습 개요 (14:43)

문서 | 예제

분산 연산

Parallel Computing Toolbox 및 MATLAB Parallel Server를 사용하면 멀티코어 컴퓨터, 클라우드 리소스 또는 연상 클러스터를 사용하여 훈련 속도를 높일 수 있습니다. GPU를 활용하여 기울기 계산 및 예측 등의 작업을 가속화할 수 있습니다.

문서 | 예제

환경 모델링

MATLAB 및 Simulink를 사용하여 강화 학습 에이전트와 원활하게 상호 작용하는 환경을 모델링할 수 있습니다. 타사 모델링 툴과 연동할 수 있습니다.

강화 학습 시작하기 (9:30)

코드 생성 및 배포

임베디드 기기에 배포하기 위한 C/C++ 및 CUDA 코드를 훈련된 정책에서 자동으로 생성할 수 있습니다. MATLAB Compiler 및 MATLAB Production Server를 사용하여 훈련된 정책을 프로덕션 시스템에 독립 실행형 응용 프로그램, C/C++ 공유 라이브러리 등으로 배포할 수 있습니다.

문서 | 예제