Main Content

이 번역 페이지는 최신 내용을 담고 있지 않습니다. 최신 내용을 영문으로 보려면 여기를 클릭하십시오.

정책 및 가치 함수

심층 신경망이나 Q 테이블 같은 정책 및 가치 함수 표현 정의하기

강화 학습 정책은 환경의 관측값에 기반하여 수행할 행동을 선택하는 일종의 매핑입니다. 훈련이 진행되는 동안 에이전트는 장기 보상을 최대화하는 방향으로 정책 표현의 파라미터를 조정합니다.

Reinforcement Learning Toolbox™는 액터 및 크리틱 표현에 대한 객체를 제공합니다. 액터는 수행할 최선의 행동을 선택하는 정책을 표현합니다. 크리틱은 현재 정책의 가치를 추정하는 가치 함수를 표현합니다. 응용 분야와 사용자가 선택한 에이전트에 따라 심층 신경망, 선형 기저 함수 또는 룩업 테이블을 사용하여 정책과 가치 함수를 정의할 수 있습니다. 자세한 내용은 Create Policies and Value Functions 항목을 참조하십시오.

함수

모두 확장

rlTableValue table or Q table
rlValueFunctionValue function approximator object for reinforcement learning agents
rlQValueFunction Q-Value function approximator object for reinforcement learning agents
rlVectorQValueFunction Vector Q-value function approximator for reinforcement learning agents
rlContinuousDeterministicActor Deterministic actor with a continuous action space for reinforcement learning agents
rlDiscreteCategoricalActorStochastic categorical actor with a discrete action space for reinforcement learning agents
rlContinuousGaussianActorStochastic Gaussian actor with a continuous action space for reinforcement learning agents
rlOptimizerOptionsOptimization options for actors and critics
quadraticLayerQuadratic layer for actor or critic network
scalingLayerScaling layer for actor or critic network
softplusLayerSoftplus layer for actor or critic network
featureInputLayer특징 입력 계층
reluLayerReLU(Rectified Linear Unit) 계층
tanhLayer쌍곡탄젠트(tanh) 계층
fullyConnectedLayer완전 연결 계층
lstmLayer장단기 기억(LSTM) 계층
softmaxLayer소프트맥스 계층
getActorGet actor from reinforcement learning agent
setActorSet actor of reinforcement learning agent
getCriticGet critic from reinforcement learning agent
setCriticSet critic of reinforcement learning agent
getLearnableParametersObtain learnable parameter values from agent, function approximator, or policy object
setLearnableParametersSet learnable parameter values of agent, function approximator, or policy object
getModelGet function approximator model from actor or critic
setModelSet function approximation model for actor or critic
getActionObtain action from agent, actor, or policy object given environment observations
getValueObtain estimated value from a critic given environment observations and actions
getMaxQValueObtain maximum estimated value over all possible actions from a Q-value function critic with discrete action space, given environment observations
evaluateEvaluate function approximator object given observation (or observation-action) input data
gradientEvaluate gradient of function approximator object given observation and action input data
accelerateOption to accelerate computation of gradient for approximator object based on neural network

도움말 항목