Reinforcement Learning Toolbox™는 DQN, PPO, SAC 및 DDPG와 같은 강화 학습 알고리즘을 사용하는 정책을 훈련시키기 위한 앱, 함수, Simulink® 블록을 제공합니다. 이러한 정책을 사용하여 자원 할당, 로봇공학, 자율 시스템과 같은 복잡한 응용 사례의 제어기 및 의사결정 알고리즘을 구현할 수 있습니다.
이 툴박스를 사용하면 심층 신경망 또는 룩업 테이블을 사용하여 정책 및 가치 함수를 표현할 수 있고 MATLAB® 또는 Simulink에서 모델링된 환경과의 상호작용을 통해 이런 정책과 가치 함수를 훈련시킬 수 있습니다. 툴박스에서 제공하는 단일 에이전트 또는 다중 에이전트 강화 학습 알고리즘을 평가하거나 직접 개발할 수 있습니다. 앱을 통한 대화형 방식 또는 프로그래밍 방식으로 하이퍼파라미터 설정을 실험하고 훈련 진행 상황을 모니터링하고 훈련된 에이전트를 시뮬레이션할 수 있습니다. 훈련 성능을 향상하기 위해 시뮬레이션을 다중 CPU, GPU, 컴퓨터 클러스터 및 클라우드에서 병렬로 실행할 수 있습니다. (Parallel Computing Toolbox™ 및 MATLAB Parallel Server™ 사용)
ONNX™ 모델 형식을 통해 TensorFlow™ Keras 및 PyTorch 등의 딥러닝 프레임워크에서 기존 정책을 가져올 수 있습니다. (Deep Learning Toolbox™ 사용) 최적화된 C, C++, CUDA® 코드를 생성하여 훈련된 정책을 마이크로컨트롤러 및 GPU에 배포할 수 있습니다. 툴박스에는 시작을 돕기 위한 참조 예제가 포함되어 있습니다.
시작하기:
강화 학습 알고리즘
DQN(Deep Q-network), DDPG(deep deterministic policy gradient), PPO(proximal policy optimization) 및 기타 내장 알고리즘을 사용하여 에이전트를 만들 수 있습니다. 템플릿을 사용하여 정책을 훈련시키는 사용자 지정 에이전트를 개발할 수 있습니다.
Reinforcement Learning Designer 앱
대화형 방식으로 강화 학습 에이전트를 설계, 훈련, 시뮬레이션할 수 있습니다. 향후 사용 및 배포를 위해 훈련된 에이전트를 MATLAB으로 내보낼 수 있습니다.
심층 신경망을 사용한 정책 및 가치 함수 표현
대규모 상태-행동 공간을 사용하는 복잡한 시스템의 경우 Deep Learning Toolbox의 계층을 사용하거나 대화형 방식의 심층 신경망 디자이너를 통해 심층 신경망 정책을 프로그래밍 방식으로 정의할 수 있습니다. 또는 툴박스에서 제안하는 기본 네트워크 아키텍처를 사용할 수도 있습니다. 모방 학습으로 정책을 초기화하여 훈련을 가속화할 수 있습니다. 다른 딥러닝 프레임워크와의 상호 운용성을 위해 ONNX 모델을 가져오고 내보낼 수 있습니다.
Simulink의 단일 에이전트 및 다중 에이전트 강화 학습
RL Agent 블록을 사용하여 Simulink에서 강화 학습 에이전트를 만들고 훈련할 수 있습니다. 여러 개의 RL Agent 블록 인스턴스를 사용하여 Simulink에서 동시에 여러 에이전트를 훈련(다중 에이전트 강화 학습)할 수 있습니다.
Simulink 및 Simscape 환경
Simulink 및 Simscape™를 사용하여 환경 모델을 만들 수 있습니다. 모델 내에서 관측값, 행동 및 보상 신호를 지정할 수 있습니다.
MATLAB 환경
MATLAB 함수와 클래스를 사용하여 환경을 모델링할 수 있습니다. MATLAB 파일 내에서 관측값, 행동 및 보상 변수를 지정할 수 있습니다.
분산 연산 및 멀티코어 가속화
Parallel Computing Toolbox 및 MATLAB Parallel Server를 사용하는 멀티코어 컴퓨터, 클라우드 리소스 또는 연산 클러스터에서 병렬 시뮬레이션을 실행하여 훈련 속도를 높일 수 있습니다.
GPU 가속
고성능 NVIDIA® GPU를 사용하여 심층 신경망 훈련 및 추론 속도를 높일 수 있습니다. Parallel Computing Toolbox와 대부분의 Compute Capability 3.0 이상 CUDA 지원 NVIDIA GPU와 함께 MATLAB을 사용할 수 있습니다.
코드 생성
GPU Coder™를 사용하면 훈련된 정책을 표현하는 MATLAB 코드에서 최적화된 CUDA 코드를 생성할 수 있습니다. MATLAB Coder™를 사용하여 정책 배포를 위한 C/C++ 코드를 생성할 수 있습니다.
MATLAB Compiler 지원
MATLAB Compiler™ 및 MATLAB Compiler SDK™를 사용하여 훈련된 정책을 독립형 응용 프로그램, C/C++ 공유 라이브러리, Microsoft® .NET 어셈블리, Java® 클래스 및 Python® 패키지로 배포할 수 있습니다.
시작하기
단순 진자 반전, Grid World 탐색, 카트-폴 시스템의 균형 잡기 및 일반 마르코프 결정 과정과 같은 문제 해결을 위해 강화 학습 정책을 개발하는 방법을 알아볼 수 있습니다.
자율 주행
적응 순항 제어, 차선 유지 보조 및 자동주차와 같은 자율 주행 응용 사례를 위한 강화 학습 정책을 설계할 수 있습니다.
로봇공학
로봇공학 응용 사례를 위한 강화 학습 정책을 설계할 수 있습니다.
제품 관련 자료:
강화 학습 비디오 시리즈
이 비디오 시리즈를 통해 강화 학습에 대해 자세히 알아볼 수 있습니다.