Main Content

rlAgentInitializationOptions

강화 학습 에이전트를 초기화하는 옵션

R2020b 이후

설명

rlAgentInitializationOptions 객체를 사용하여 에이전트에 대한 초기화 옵션을 지정합니다. 에이전트를 만들려면 에이전트 생성 함수(예: rlACAgent)를 사용하십시오.

생성

설명

initOpts = rlAgentInitializationOptions는 디폴트 신경망을 사용하는 강화 학습 에이전트를 초기화하는 디폴트 options 객체를 만듭니다. 초기화 옵션을 사용하여 에이전트 초기화 파라미터(예: 에이전트 신경망의 각 은닉 계층의 유닛 개수, 순환 신경망을 사용할지 여부)를 지정합니다.

예제

initOpts = rlAgentInitializationOptions(Name=Value)는 initialization options 객체를 만들고 하나 이상의 이름-값 인수를 사용하여 이 객체의 속성을 설정합니다.

속성

모두 확장

신경망 출력 바로 앞의 완전 연결 계층을 제외하고, 에이전트 신경망의 각 완전 연결 은닉 계층의 유닛 개수로, 양의 정수로 지정됩니다. 설정한 값은 LSTM 계층에도 적용됩니다.

예: 64

순환 신경망을 사용하기 위한 플래그로, 논리값으로 지정됩니다.

UseRNNtrue로 설정하면, 에이전트를 만들 때 출력 모드가 sequence로 설정된 순환 LSTM 계층이 에이전트 신경망의 출력 경로에 삽입됩니다. LSTM에 대한 자세한 내용은 장단기 기억 신경망 항목을 참조하십시오.

참고

TRPO 에이전트는 순환 신경망을 지원하지 않습니다.

예: true

정규화 방법으로, 다음 값 중 하나로 지정됩니다.

  • "none" — 함수 근사기 객체의 입력값을 정규화하지 않습니다.

  • "rescale-zero-one" — 입력값을 0과 1 사이의 구간으로 다시 스케일링하여 정규화합니다. 정규화된 입력값 Y는 (U–Min)./(UpperLimitLowerLimit)이며, 여기서 U는 정규화되지 않은 입력값입니다. 정규화되지 않은 입력값이 LowerLimit보다 낮으면 정규화된 값은 0보다 낮은 값이 됩니다. 마찬가지로, 정규화되지 않은 입력값이 UpperLimit보다 높으면 정규화된 값은 1보다 높은 값이 됩니다. 여기서, UpperLimitLowerLimit는 입력 채널의 사양 객체에 정의된 해당 속성입니다.

  • "rescale-symmetric" — 입력값을 –1과 1 사이의 구간으로 다시 스케일링하여 정규화합니다. 정규화된 입력값 Y는 2(U–LowerLimit)./(UpperLimitLowerLimit) – 1이며, 여기서 U는 정규화되지 않은 입력값입니다. 정규화되지 않은 입력값이 LowerLimit보다 낮으면 정규화된 값은 –1보다 낮은 값이 됩니다. 마찬가지로, 정규화되지 않은 입력값이 UpperLimit보다 높으면 정규화된 값은 1보다 높은 값이 됩니다. 여기서, UpperLimitLowerLimit는 입력 채널의 사양 객체에 정의된 해당 속성입니다.

참고

rlAgentInitializationOptionsNormalization 속성을 지정하는 경우, UpperLimit 속성과 LowerLimit 속성이 모두 정의된 rlNumericSpec 사양 객체에 해당하는 근사기 입력 채널에만 정규화가 적용됩니다. 에이전트를 만든 후에는, 원하는 정규화 방법을 사용하는 정규화 함수를 할당하려면 setNormalizer를 사용합니다. normalizer 객체에 대한 자세한 내용은 rlNormalizer 항목을 참조하십시오.

예: "rescale-symmetric"

객체 함수

rlACAgentActor-critic (AC) reinforcement learning agent
rlPGAgentPolicy gradient (PG) reinforcement learning agent
rlDDPGAgentDDPG(심층 결정적 정책 경사법) 강화 학습 에이전트
rlDQNAgentDeep Q-network (DQN) reinforcement learning agent
rlPPOAgentProximal policy optimization (PPO) reinforcement learning agent
rlTD3AgentTwin-delayed deep deterministic (TD3) policy gradient reinforcement learning agent
rlSACAgentSoft actor-critic (SAC) reinforcement learning agent
rlTRPOAgentTrust region policy optimization (TRPO) reinforcement learning agent

예제

모두 축소

agent initialization options 객체를 만듭니다. 각 완전 연결 계층의 은닉 뉴런 개수와 순환 신경망의 사용 여부를 지정합니다.

initOpts = rlAgentInitializationOptions(NumHiddenUnit=64,UseRNN=true)
initOpts = 
  rlAgentInitializationOptions with properties:

    NumHiddenUnit: 64
           UseRNN: 1
    Normalization: "none"

점 표기법을 사용하여 옵션을 수정할 수 있습니다. 예를 들어, 은닉 유닛 개수를 128로 설정합니다.

initOpts.NumHiddenUnit = 128
initOpts = 
  rlAgentInitializationOptions with properties:

    NumHiddenUnit: 128
           UseRNN: 1
    Normalization: "none"

에이전트를 만들려면 initOpts를 에이전트 생성자 함수의 입력 인수로 사용하십시오.

버전 내역

R2020b에 개발됨