Reinforcement Learning Toolbox

강화 학습을 사용한 정책 설계 및 학습

 

Reinforcement Learning Toolbox™는 DQN, A2C 및 DDPG를 포함한 강화 학습 알고리즘을 사용하여 학습 정책용 함수와 블록을 제공합니다. 이 정책을 사용하여 로봇 및 자율 시스템과 같은 복잡한 시스템의 컨트롤러와 의사 결정 알고리즘을 구현할 수 있습니다. 심층 신경망, 다항식 또는 룩업 테이블을 사용하여 정책을 구현할 수 있습니다.

이 툴박스를 사용하면 MATLAB® 또는 Simulink®모델로 표시된 환경과 상호 작용할 수 있으므로 정책을 학습할 수 있습니다. 알고리즘을 평가하고, 하이퍼 파라미터 설정을 실험하고, 학습 진행 상태를 모니터링할 수 있습니다. 학습 성능을 개선하기 위해 클라우드, 컴퓨터 클러스터 및 GPU(Parallel Computing Toolbox™ 및 MATLAB Parallel Server™ 사용)에서 병렬로 시뮬레이션을 실행할 수 있습니다.

ONNX™ 모델 형식을 통해 TensorFlow™ Keras 및 PyTorch(Deep Learning Toolbox™ 사용)와 같은 딥러닝 프레임워크에서 기존 정책을 가져올 수 있습니다. 최적화된 C, C++ 및 CUDA 코드를 생성하여 마이크로 컨트롤러와 GPU에 학습된 정책을 배포할 수 있습니다.

툴박스에는 강화 학습을 사용하여 로보틱스 및 자율주행 활용 분야용 컨트롤러를 설계하기 위한 참조 예제가 포함되어 있습니다.

시작하기:

강화 학습 에이전트

심층 신경망이 나타내는 정책을 학습하려면 MATLAB 및 Simulink 에이전트를 구현합니다. 내장 및 사용자 지정 강화 학습 알고리즘을 사용합니다.

강화 학습 알고리즘

Deep Q-Network(DQN), Advantage Actor Critic(A2C), Deep Deterministic Policy Gradients(DDPG) 및 기타 내장 알고리즘을 사용하여 에이전트를 구현합니다. 템플릿을 사용하여 학습 정책용 사용자 지정 에이전트를 구현합니다.

에이전트는 정책과 알고리즘으로 구성됩니다.

심층 신경망을 사용한 정책 및 값 함수 표현

상태-행동 공간이 대형인 복잡한 시스템에 심층 신경망 정책을 사용합니다. Deep Learning Toolbox의 네트워크와 아키텍처를 사용하여 정책을 정의합니다. 다른 딥러닝 프레임워크와 상호 운용성을 위해 ONNX 모델을 가져옵니다.

에이전트용 Simulink 블록

Simulink에서 강화 학습 에이전트를 구현하고 학습합니다.

Simulink용 강화 학습 에이전트 블록.

환경 모델링

MATLAB 및 Simulink 환경 모델을 만듭니다. 시스템 역학을 기술하고 학습 에이전트에 대한 관찰과 보상 신호를 제공합니다.

Simulink 및 Simscape 환경

Simulink 및 Simscape™ 모델을 사용하여 환경을 표현합니다. 모델 내에서 관찰, 조치 및 보상 신호를 지정합니다.

도립 진자용 Simulink 환경 모델.

MATLAB 환경

MATLAB 함수와 클래스를 사용하여 환경을 나타냅니다. MATLAB 파일 내에서 관찰, 동작 및 보상 변수를 지정합니다.

Cart-pole 시스템용 MATLAB 환경.

학습 가속

GPU, 클라우드 및 분산 컴퓨팅 리소스를 사용한 학습 속도 높이기.

분산 컴퓨팅 및 멀티코어 가속

Parallel Computing Toolbox 및MATLAB Parallel Server를 사용하여  멀티코어 컴퓨터, 클라우드 리소스 또는 컴퓨팅 클러스터에 대한 병렬 시뮬레이션을 실행하여 학습 속도를 높입니다.

병렬 컴퓨팅을 사용한 학습 속도 높이기.

GPU 가속

고성능 NVIDIA® GPU를 사용하여 심층 신경망 학습과 추론 속도를 높입니다. MATLAB 은Parallel Computing Toolbox 및 컴퓨팅 기능이 3.0 이상인 대부분의 CUDA® 지원 NVIDIA GPU와 함께 사용합니다.

GPU를 사용하여 학습을 가속합니다.

코드 생성 및 배포

학습된 정책을 임베디드 장치에 배포하거나 다양한 시스템 구축 시스템과 통합합니다.

코드 생성

학습된 정책을 나타내는 MATLAB 코드에서 최적화된 CUDA 코드를 생성하기 위해  GPU Coder™ 를 사용합니다. MATLAB Coder™를 사용하여 정책 배포를 위한 C/C++ 코드를 생성합니다.

GPU Coder를 사용하여 CUDA 코드를 생성합니다.

MATLAB Compiler 지원

MATLAB Compiler™ 및 MATLAB Compiler SDK™를 사용하여 학습된 정책을 C/C++ 공유 라이브러리, Microsoft® .NET 어셈블리, Java® classes 및 Python®패키지로 배포할 수 있습니다.

독립 실행형 프로그램으로 정책을 패키징하고 공유합니다.

참조 예제

로봇, 자율주행 자동차 및 기타 시스템에 대한 강화 학습을 사용하여 컨트롤러를 설계합니다.

시작하기

도립 진자 균형 조정, 그리드-월드 문제 탐색, cart-pole 시스템 균형 조정과 같은 문제에 대한 강화 학습 기반 컨트롤러를 구현합니다.

그리드 월드 미로 해결.

자율주행 활용 분야

적응형 순항 제어 및 차선 유지 지원 시스템용 컨트롤러를 설계합니다.

차선 유지 지원 시스템 학습.

로보틱스

강화 학습을 사용하여 로봇용 컨트롤러를 설계합니다.

강화 학습을 사용하여 로봇이 걷도록 훈련하기.

이 시리즈의 비디오를 통해 강화 학습을 학습합니다.

질문이 있으신가요?

Reinforcement Learning Toolbox 기술 전문가 Emmanouil Tzorakoleftherakis에게 문의하십시오

최신 기능

PPO 에이전트

근접 정책 최적화 알고리즘을 사용하여 정책을 훈련시켜서 훈련 안정성 개선

병렬 에이전트 시뮬레이션

여러 에이전트 시뮬레이션을 병렬로 실행하여, 훈련된 정책 검증

참조 예제

로봇 및 제어 설계 활용 분야를 위해 강화 학습 정책 훈련

이러한 기능과 해당 함수에 대한 세부 정보는 릴리스 정보를 참조하십시오.

무료 평가판 받기

30일 동안 사용해 보세요.

다운로드

구매하기

제품별 가격을 확인하세요.

학생이세요?

학생용 MATLAB 및 Simulink를 확인하세요.

자세히 보기