Main Content

이 번역 페이지는 최신 내용을 담고 있지 않습니다. 최신 내용을 영문으로 보려면 여기를 클릭하십시오.

rlAgentInitializationOptions

강화 학습 에이전트를 초기화하는 옵션

R2020b 이후

설명

rlAgentInitializationOptions 객체를 사용하여 에이전트에 대한 초기화 옵션을 지정합니다. 에이전트를 만들려면 관련 에이전트 생성 함수(예: rlACAgent)를 사용하십시오.

생성

설명

initOpts = rlAgentInitializationOptions는 디폴트 신경망을 지원하는 강화 학습 에이전트를 초기화하는 디폴트 options 객체를 반환합니다. 초기화 옵션을 사용하여 에이전트 초기화 파라미터(예: 에이전트 신경망의 각 은닉 계층의 유닛 개수, 순환 신경망을 사용할지 여부)를 지정합니다.

예제

initOpts = rlAgentInitializationOptions(Name=Value)는 옵션 세트 initOpts를 만들고 하나 이상의 이름-값 인수를 사용하여 이 옵션 세트의 속성을 설정합니다. 여러 개의 이름-값 인수를 지정할 수 있습니다.

속성

모두 확장

신경망 출력 바로 앞의 완전 연결 계층을 제외하고, 에이전트 신경망의 각 완전 연결 은닉 계층의 유닛 개수로, 양의 정수로 지정됩니다. 설정한 값은 LSTM 계층에도 적용됩니다.

예: NumHiddenUnit=64

순환 신경망을 사용하기 위한 플래그로, 논리값으로 지정됩니다.

UseRNNtrue로 설정하면, 에이전트를 만들 때 출력 모드가 시퀀스로 설정된 순환 LSTM 계층이 에이전트 신경망의 출력 경로에 삽입됩니다. LSTM에 대한 자세한 내용은 장단기 기억 신경망 항목을 참조하십시오.

참고

TRPO 에이전트는 순환 신경망을 지원하지 않습니다.

예: UseRNN=true

객체 함수

rlACAgentActor-critic (AC) reinforcement learning agent
rlPGAgentPolicy gradient (PG) reinforcement learning agent
rlDDPGAgentDeep deterministic policy gradient (DDPG) reinforcement learning agent
rlDQNAgentDeep Q-network (DQN) reinforcement learning agent
rlPPOAgentProximal policy optimization (PPO) reinforcement learning agent
rlTD3AgentTwin-delayed deep deterministic (TD3) policy gradient reinforcement learning agent
rlSACAgentSoft actor-critic (SAC) reinforcement learning agent
rlTRPOAgentTrust region policy optimization (TRPO) reinforcement learning agent

예제

모두 축소

은닉 뉴런 개수와 순환 신경망의 사용 여부를 지정하여 agent initialization options 객체를 만듭니다.

initOpts = rlAgentInitializationOptions(NumHiddenUnit=64,UseRNN=true)
initOpts = 
  rlAgentInitializationOptions with properties:

    NumHiddenUnit: 64
           UseRNN: 1

점 표기법을 사용하여 옵션을 수정할 수 있습니다. 예를 들어, 에이전트 샘플 시간을 0.5로 설정합니다.

initOpts.NumHiddenUnit = 128
initOpts = 
  rlAgentInitializationOptions with properties:

    NumHiddenUnit: 128
           UseRNN: 1

에이전트를 만들려면 initOpts를 에이전트 생성자 함수의 입력 인수로 사용하십시오.

버전 내역

R2020b에 개발됨