이 번역 페이지는 최신 내용을 담고 있지 않습니다. 최신 내용을 영문으로 보려면 여기를 클릭하십시오.
정책 및 가치 함수
액터, 크리틱 같은 정책 및 가치 함수 근사기 정의
대부분의 에이전트는 훈련이 진행되는 동안 액터 또는 크리틱을 사용하거나, 둘 모두를 사용합니다. 액터는 수행할 행동을 선택하는 정책을 학습합니다. 크리틱은 정책의 값을 추정하는 가치 (또는 Q-값) 함수를 학습합니다.
Reinforcement Learning Toolbox™는 액터 및 크리틱에 대한 함수 근사기 객체와 사용자 지정 루프 및 배포를 위한 policy 객체를 제공합니다. 근사기 객체는 심층 신경망, 선형 기저 함수 또는 룩업 테이블 같은 다양한 근사 모델을 내부적으로 사용할 수 있습니다.
정책, 가치 함수, 액터 및 크리틱에 대한 소개는 Create Policies and Value Functions 항목을 참조하십시오.
블록
Policy | Reinforcement learning policy (R2022b 이후) |
함수
도움말 항목
- Create Policies and Value Functions
Specify policies and value functions using function approximators, such as deep neural networks.
- Import Neural Network Models Using ONNX
You can import existing policies from other deep learning frameworks using the ONNX™ model format.