Main Content

이 번역 페이지는 최신 내용을 담고 있지 않습니다. 최신 내용을 영문으로 보려면 여기를 클릭하십시오.

정책 및 가치 함수

심층 신경망이나 Q 테이블 같은 정책 및 가치 함수 표현 정의하기

강화 학습 정책은 환경의 관측값에 기반하여 수행할 행동을 선택하는 일종의 매핑입니다. 훈련이 진행되는 동안 에이전트는 장기 보상을 최대화하는 방향으로 정책 표현의 파라미터를 조정합니다.

Reinforcement Learning Toolbox™는 액터 및 크리틱 표현에 대한 객체를 제공합니다. 액터는 수행할 최선의 행동을 선택하는 정책을 표현합니다. 크리틱은 현재 정책의 가치를 추정하는 가치 함수를 표현합니다. 응용 분야와 사용자가 선택한 에이전트에 따라 심층 신경망, 선형 기저 함수 또는 룩업 테이블을 사용하여 정책과 가치 함수를 정의할 수 있습니다. 자세한 내용은 Create Policies and Value Functions 항목을 참조하십시오.

함수

모두 확장

rlValueRepresentation(Not recommended) Value function critic representation for reinforcement learning agents
rlQValueRepresentation (Not recommended) Q-Value function critic representation for reinforcement learning agents
rlDeterministicActorRepresentation(Not recommended) Deterministic actor representation for reinforcement learning agents
rlStochasticActorRepresentation(Not recommended) Stochastic actor representation for reinforcement learning agents
rlRepresentationOptions강화 학습 에이전트 표현(크리틱 및 액터)을 위한 옵션 세트
rlTableValue table or Q table
quadraticLayerQuadratic layer for actor or critic network
scalingLayerScaling layer for actor or critic network
softplusLayerSoftplus layer for actor or critic network
getActorGet actor from reinforcement learning agent
setActorSet actor of reinforcement learning agent
getCriticGet critic from reinforcement learning agent
setCriticSet critic of reinforcement learning agent
getLearnableParametersObtain learnable parameter values from actor or critic function object
setLearnableParametersSet learnable parameter values of actor or critic function object
getModelGet function approximator from actor or critic
setModelSet function approximator for actor or critic
getActionObtain action from agent or actor given environment observations
getValueObtain estimated value from a critic given environment observations and actions
getMaxQValueObtain maximum estimated value over all possible actions from a Q-value function critic with discrete action space, given environment observations

도움말 항목