Reinforcement Learning Toolbox
강화 학습을 사용한 정책 설계 및 학습
Reinforcement Learning Toolbox™는 DQN, A2C 및 DDPG를 포함한 강화 학습 알고리즘을 사용하여 학습 정책용 함수와 블록을 제공합니다. 이 정책을 사용하여 로봇 및 자율 시스템과 같은 복잡한 시스템의 컨트롤러와 의사 결정 알고리즘을 구현할 수 있습니다. 심층 신경망, 다항식 또는 룩업 테이블을 사용하여 정책을 구현할 수 있습니다.
이 툴박스를 사용하면 MATLAB® 또는 Simulink®모델로 표시된 환경과 상호 작용할 수 있으므로 정책을 학습할 수 있습니다. 알고리즘을 평가하고, 하이퍼 파라미터 설정을 실험하고, 학습 진행 상태를 모니터링할 수 있습니다. 학습 성능을 개선하기 위해 클라우드, 컴퓨터 클러스터 및 GPU(Parallel Computing Toolbox™ 및 MATLAB Parallel Server™ 사용)에서 병렬로 시뮬레이션을 실행할 수 있습니다.
ONNX™ 모델 형식을 통해 TensorFlow™ Keras 및 PyTorch(Deep Learning Toolbox™ 사용)와 같은 딥러닝 프레임워크에서 기존 정책을 가져올 수 있습니다. 최적화된 C, C++ 및 CUDA 코드를 생성하여 마이크로 컨트롤러와 GPU에 학습된 정책을 배포할 수 있습니다.
툴박스에는 강화 학습을 사용하여 로보틱스 및 자율주행 활용 분야용 컨트롤러를 설계하기 위한 참조 예제가 포함되어 있습니다.
시작하기:
무료 eBook
MATLAB 및 Simulink를 통한 강화 학습
강화 학습 알고리즘
Deep Q-Network(DQN), Advantage Actor Critic(A2C), Deep Deterministic Policy Gradients(DDPG) 및 기타 내장 알고리즘을 사용하여 에이전트를 구현합니다. 템플릿을 사용하여 학습 정책용 사용자 지정 에이전트를 구현합니다.
심층 신경망을 사용한 정책 및 값 함수 표현
상태-행동 공간이 대형인 복잡한 시스템에 심층 신경망 정책을 사용합니다. Deep Learning Toolbox의 네트워크와 아키텍처를 사용하여 정책을 정의합니다. 다른 딥러닝 프레임워크와 상호 운용성을 위해 ONNX 모델을 가져옵니다.
Simulink 및 Simscape 환경
Simulink 및 Simscape™ 모델을 사용하여 환경을 표현합니다. 모델 내에서 관찰, 조치 및 보상 신호를 지정합니다.
MATLAB 환경
MATLAB 함수와 클래스를 사용하여 환경을 나타냅니다. MATLAB 파일 내에서 관찰, 동작 및 보상 변수를 지정합니다.
분산 컴퓨팅 및 멀티코어 가속
Parallel Computing Toolbox 및MATLAB Parallel Server를 사용하여 멀티코어 컴퓨터, 클라우드 리소스 또는 컴퓨팅 클러스터에 대한 병렬 시뮬레이션을 실행하여 학습 속도를 높입니다.
GPU 가속
고성능 NVIDIA® GPU를 사용하여 심층 신경망 학습과 추론 속도를 높입니다. MATLAB 은Parallel Computing Toolbox 및 컴퓨팅 기능이 3.0 이상인 대부분의 CUDA® 지원 NVIDIA GPU와 함께 사용합니다.
코드 생성
학습된 정책을 나타내는 MATLAB 코드에서 최적화된 CUDA 코드를 생성하기 위해 GPU Coder™ 를 사용합니다. MATLAB Coder™를 사용하여 정책 배포를 위한 C/C++ 코드를 생성합니다.
MATLAB Compiler 지원
MATLAB Compiler™ 및 MATLAB Compiler SDK™를 사용하여 학습된 정책을 C/C++ 공유 라이브러리, Microsoft® .NET 어셈블리, Java® classes 및 Python®패키지로 배포할 수 있습니다.
시작하기
도립 진자 균형 조정, 그리드-월드 문제 탐색, cart-pole 시스템 균형 조정과 같은 문제에 대한 강화 학습 기반 컨트롤러를 구현합니다.
로보틱스
강화 학습을 사용하여 로봇용 컨트롤러를 설계합니다.
다중 에이전트 강화 학습
Simulink 환경에서 동시에 여러 에이전트 훈련
Soft Actor-Critic 에이전트
탐색 증가를 사용하여 연속적인 작업 공간이 있는 환경에 대한 샘플 효율적인 정책 훈련
디폴트 에이전트
디폴트 신경망 구조로 에이전트를 만들어 수동으로 정책을 구성하지 않도록 함
이러한 기능과 해당 함수에 대한 세부 정보는 릴리스 정보를 참조하십시오.