Main Content

getObservationInfo

강화 학습 환경, 에이전트 또는 경험 버퍼에서 관측값 데이터 사양 가져오기

설명

obsInfo = getObservationInfo(env)는 강화 학습 환경 env에서 관측값 정보를 추출합니다.

예제

obsInfo = getObservationInfo(agent)는 강화 학습 에이전트 agent에서 관측값 정보를 추출합니다.

obsInfo = getObservationInfo(buffer)는 경험 버퍼 buffer에서 관측값 정보를 추출합니다.

예제

모두 축소

이 예제의 강화 학습 환경은 자동차 2대(선행 차량과 후행 차량 각각 1대)로 구성된 종방향 동특성 모델입니다. 이 차량 모델은 Adaptive Cruise Control System Using Model Predictive Control (Model Predictive Control Toolbox) 예제에서도 사용됩니다.

모델을 엽니다.

mdl = "rlACCMdl";
open_system(mdl);

모델에서 에이전트 블록의 경로를 지정합니다.

agentblk = mdl + "/RL Agent";

관측값 및 행동 사양을 만듭니다.

% Observation specifications
obsInfo = rlNumericSpec([3 1],LowerLimit=-inf*ones(3,1),UpperLimit=inf*ones(3,1));
obsInfo.Name = "observations";
obsInfo.Description = "information on velocity error and ego velocity";

% Action specifications
actInfo = rlNumericSpec([1 1],LowerLimit=-3,UpperLimit=2);
actInfo.Name = "acceleration";

환경 인터페이스를 정의합니다.

env = rlSimulinkEnv(mdl,agentblk,obsInfo,actInfo)
env = 
SimulinkEnvWithAgent with properties:

           Model : rlACCMdl
      AgentBlock : rlACCMdl/RL Agent
        ResetFcn : []
  UseFastRestart : on

강화 학습 환경 envSimulinkEnvWithAgent 객체입니다.

env에서 행동 사양과 관측값 사양을 추출합니다.

actInfoExt = getActionInfo(env)
actInfoExt = 
  rlNumericSpec with properties:

     LowerLimit: -3
     UpperLimit: 2
           Name: "acceleration"
    Description: [0x0 string]
      Dimension: [1 1]
       DataType: "double"

obsInfoExt = getObservationInfo(env)
obsInfoExt = 
  rlNumericSpec with properties:

     LowerLimit: [3x1 double]
     UpperLimit: [3x1 double]
           Name: "observations"
    Description: "information on velocity error and ego velocity"
      Dimension: [3 1]
       DataType: "double"

행동 정보는 가속 값을 포함하며, 관측값 정보는 자기 차량의 속도와 속도 오차 값을 포함합니다.

입력 인수

모두 축소

관측값 정보를 추출할 강화 학습 환경으로, 다음 객체 중 하나로 지정됩니다.

강화 학습 환경에 대한 자세한 내용은 Reinforcement Learning EnvironmentsCreate Custom Simulink Environments 항목을 참조하십시오.

관측값 정보를 추출할 강화 학습 에이전트로, 다음 객체 중 하나로 지정됩니다.

강화 학습 에이전트에 대한 자세한 내용은 강화 학습 에이전트 항목을 참조하십시오.

경험 버퍼로, 다음과 같은 replay memory 객체 중 하나로 지정됩니다.

출력 인수

모두 축소

강화 학습 환경에서 추출된 관측값 데이터 사양으로, 다음 중 하나로 구성된 배열로 반환됩니다.

배열의 각 요소는 환경 관측값 채널의 속성(예: 차원, 데이터형, 이름)을 정의합니다.

getObservationInfo를 사용하여 기존 환경, 함수 근사기 또는 에이전트에서 observationInfo를 추출할 수 있습니다. rlFiniteSetSpec 또는 rlNumericSpec을 사용하여 사양을 수동으로 생성할 수도 있습니다.

버전 내역

R2019a에 개발됨