이 번역 페이지는 최신 내용을 담고 있지 않습니다. 최신 내용을 영문으로 보려면 여기를 클릭하십시오.
정책 및 가치 함수
심층 신경망이나 Q 테이블 같은 정책 및 가치 함수 표현 정의하기
강화 학습 정책은 환경의 관측값에 기반하여 수행할 행동을 선택하는 일종의 매핑입니다. 훈련이 진행되는 동안 에이전트는 장기 보상을 최대화하는 방향으로 정책 표현의 파라미터를 조정합니다.
Reinforcement Learning Toolbox™는 액터 및 크리틱 표현에 대한 객체를 제공합니다. 액터는 수행할 최선의 행동을 선택하는 정책을 표현합니다. 크리틱은 현재 정책의 가치를 추정하는 가치 함수를 표현합니다. 응용 분야와 사용자가 선택한 에이전트에 따라 심층 신경망, 선형 기저 함수 또는 룩업 테이블을 사용하여 정책과 가치 함수를 정의할 수 있습니다. 자세한 내용은 Create Policies and Value Functions 항목을 참조하십시오.
함수
도움말 항목
- Create Policies and Value Functions
Specify policies and value functions using function approximators, such as deep neural networks.
- Import Neural Network Models
You can import existing policies from other deep learning frameworks using the ONNX™ model format.