Reinforcement Learning Toolbox

주요 업데이트

 

Reinforcement Learning Toolbox

강화 학습을 사용하여 정책을 설계하고 훈련할 수 있습니다.

시작하기:

강화 학습 에이전트

강화 학습 에이전트를 생성하고 구성하여 MATLAB 및 Simulink에서 정책을 훈련할 수 있습니다. 내장된 강화 학습 알고리즘을 사용하거나 사용자 지정 강화 학습 알고리즘을 개발할 수 있습니다.

강화 학습 알고리즘

DQN(Deep Q-network), DDPG(deep deterministic policy gradient), PPO(proximal policy optimization) 및 기타 내장 알고리즘을 사용하여 에이전트를 만들 수 있습니다. 템플릿을 사용하여 정책을 훈련시키는 사용자 지정 에이전트를 개발할 수 있습니다.

Reinforcement Learning Toolbox에서 사용 가능한 훈련 알고리즘.

Reinforcement Learning Designer 앱

대화형 방식으로 강화 학습 에이전트를 설계, 훈련, 시뮬레이션할 수 있습니다. 향후 사용 및 배포를 위해 훈련된 에이전트를 MATLAB으로 내보낼 수 있습니다.

심층 신경망을 사용한 정책 및 가치 함수 표현

대규모 상태-행동 공간을 사용하는 복잡한 시스템의 경우 Deep Learning Toolbox의 계층을 사용하거나 대화형 방식의 심층 신경망 디자이너를 통해 심층 신경망 정책을 프로그래밍 방식으로 정의할 수 있습니다. 또는 툴박스에서 제안하는 기본 네트워크 아키텍처를 사용할 수도 있습니다. 모방 학습으로 정책을 초기화하여 훈련을 가속화할 수 있습니다. 다른 딥러닝 프레임워크와의 상호 운용성을 위해 ONNX 모델을 가져오고 내보낼 수 있습니다.

Simulink의 단일 에이전트 및 다중 에이전트 강화 학습

RL Agent 블록을 사용하여 Simulink에서 강화 학습 에이전트를 만들고 훈련할 수 있습니다. 여러 개의 RL Agent 블록 인스턴스를 사용하여 Simulink에서 동시에 여러 에이전트를 훈련(다중 에이전트 강화 학습)할 수 있습니다.

Simulink의 강화 학습 에이전트 블록.

환경 모델링

MATLAB 및 Simulink 환경 모델을 만들 수 있습니다. 시스템 동특성을 설명하고 훈련 에이전트에 관측값 및 보상 신호를 제공할 수 있습니다.

Simulink 및 Simscape 환경

Simulink 및 Simscape™를 사용하여 환경 모델을 만들 수 있습니다. 모델 내에서 관측값, 행동 및 보상 신호를 지정할 수 있습니다.

이족 보행 로봇을 위한 Simulink 환경 모델.

MATLAB 환경

MATLAB 함수와 클래스를 사용하여 환경을 모델링할 수 있습니다. MATLAB 파일 내에서 관측값, 행동 및 보상 변수를 지정할 수 있습니다.

3자유도 로켓을 위한 MATLAB 환경.

훈련 가속화

GPU, 클라우드 및 분산 컴퓨팅 리소스를 사용하여 훈련 속도를 높일 수 있습니다.

병렬 연산을 사용하여 훈련 속도를 높입니다.

GPU 가속

고성능 NVIDIA® GPU를 사용하여 심층 신경망 훈련 및 추론 속도를 높일 수 있습니다. Parallel Computing Toolbox와 대부분의 Compute Capability 3.0 이상 CUDA 지원 NVIDIA GPU와 함께 MATLAB을 사용할 수 있습니다.

GPU를 사용하여 훈련을 가속화합니다.

코드 생성 및 배포

훈련된 정책을 임베디드 기기에 배포하거나 광범위한 프로덕션 시스템과 통합할 수 있습니다.

코드 생성

GPU Coder™를 사용하면 훈련된 정책을 표현하는 MATLAB 코드에서 최적화된 CUDA 코드를 생성할 수 있습니다. MATLAB Coder™를 사용하여 정책 배포를 위한 C/C++ 코드를 생성할 수 있습니다.

GPU Coder를 사용하여 CUDA 코드를 생성합니다.

MATLAB Compiler 지원

MATLAB Compiler™MATLAB Compiler SDK™를 사용하여 훈련된 정책을 독립형 응용 프로그램, C/C++ 공유 라이브러리, Microsoft® .NET 어셈블리, Java® 클래스 및 Python® 패키지로 배포할 수 있습니다.

정책을 독립형 프로그램으로 패키징하고 공유합니다.

참조 예제

로봇공학, 자율 주행, 보정, 스케줄링 및 기타 응용 사례를 위한 제어기와 의사결정 알고리즘을 설계할 수 있습니다.

시작하기

단순 진자 반전, Grid World 탐색, 카트-폴 시스템의 균형 잡기 및 일반 마르코프 결정 과정과 같은 문제 해결을 위해 강화 학습 정책을 개발하는 방법을 알아볼 수 있습니다.

자율 주행

적응 순항 제어, 차선 유지 보조 및 자동주차와 같은 자율 주행 응용 사례를 위한 강화 학습 정책을 설계할 수 있습니다.

조정, 보정 및 스케줄링

조정, 보정 및 스케줄링 응용 사례를 위한 강화 학습 정책을 설계할 수 있습니다.

상수관망 시스템의 리소스 할당 문제.

강화 학습 비디오 시리즈

이 비디오 시리즈를 통해 강화 학습에 대해 자세히 알아볼 수 있습니다.

Reinforcement Learning Toolbox 추가 리소스