rlSARSAAgentOptions

SARSA 에이전트에 대한 옵션

페이지 내 모두 확장

설명

rlSARSAAgentOptions 객체를 사용하여 SARSA 에이전트를 만들 때 사용할 옵션을 지정합니다. SARSA 에이전트를 만들려면 rlSARSAAgent를 사용하십시오.

SARSA 에이전트에 대한 자세한 내용은 SARSA 에이전트 항목을 참조하십시오.

다양한 유형의 강화 학습 에이전트에 대한 자세한 내용은 강화 학습 에이전트 항목을 참조하십시오.

생성

구문

opt = rlSARSAAgentOptions

opt = rlSARSAAgentOptions(Name=Value)

설명

opt = rlSARSAAgentOptions는 전부 디폴트 설정을 사용하여 SARSA 에이전트를 만들 때 인수로 사용할 rlSARSAAgentOptions 객체를 만듭니다. 점 표기법을 사용하여 객체 속성을 수정할 수 있습니다.

예제

opt = rlSARSAAgentOptions(Name=Value)는 옵션 세트 opt를 만들고 하나 이상의 이름-값 인수를 사용하여 이 옵션 세트의 속성을 설정합니다. 예를 들어, rlSARSAAgentOptions(DiscountFactor=0.95)는 감가 인자 0.95를 사용하여 옵션 세트를 만듭니다. 여러 개의 이름-값 인수를 지정할 수 있습니다.

속성

모두 확장

`EpsilonGreedyExploration` — 엡실론-그리디 탐색에 대한 옵션
`EpsilonGreedyExploration` 객체

엡실론-그리디 탐색에 대한 옵션으로, 다음 속성을 갖는 EpsilonGreedyExploration 객체로 지정됩니다.

속성	설명	디폴트 값
`Epsilon`	행동을 무작위로 선택하거나 상태-행동 가치 함수를 최대화하는 행동을 선택하기 위한 확률 임계값입니다. `Epsilon` 값이 더 크다는 것은 에이전트가 더 높은 비율로 행동 공간을 무작위로 탐색한다는 의미입니다.	`1`
`EpsilonMin`	`Epsilon`의 최솟값	`0.01`
`EpsilonDecay`	감쇠율	`0.0050`

각 훈련 시간 스텝 종료 시 Epsilon이 EpsilonMin보다 크면 다음 식을 사용하여 업데이트됩니다.

Epsilon = Epsilon*(1-EpsilonDecay)

Epsilon은 한 에피소드의 끝과 다음 에피소드의 시작 사이에 보존됩니다. 따라서 EpsilonMin에 도달할 때까지 여러 에피소드에 걸쳐 계속 균일하게 감소합니다.

에이전트가 국소 최적해에 너무 빠르게 수렴할 경우 Epsilon을 늘려서 에이전트 탐색을 촉진할 수 있습니다.

탐색 옵션을 지정하려면 rlSARSAAgentOptions 객체 opt를 만든 후에 점 표기법을 사용하십시오. 예를 들어, 엡실론 값을 0.9로 설정합니다.

opt.EpsilonGreedyExploration.Epsilon = 0.9;

`CriticOptimizerOptions` — 크리틱 최적화 함수 옵션
`rlOptimizerOptions` 객체

크리틱 최적화 함수 옵션으로, rlOptimizerOptions 객체로 지정됩니다. 이 옵션을 사용하면 학습률, 기울기 임계값뿐 아니라 최적화 함수 알고리즘과 그 파라미터 같은 크리틱 근사기의 훈련 파라미터를 지정할 수 있습니다. 자세한 내용은 rlOptimizerOptions 항목과 rlOptimizer 항목을 참조하십시오.

예: CriticOptimizerOptions = rlOptimizerOptions(LearnRate=5e-3)

`SampleTime` — 에이전트의 샘플 시간
`1` (디폴트 값) | 양의 스칼라 | `-1`

에이전트의 샘플 시간으로, 양의 스칼라 또는 -1로 지정됩니다. 이 파라미터를 -1로 설정하면 이벤트 기반 시뮬레이션을 실행할 수 있습니다.

Simulink^® 환경에서는 에이전트가 시뮬레이션 시간의 매 SampleTime초마다 실행되도록 지정된 RL Agent 블록입니다. SampleTime이 -1이면 이 블록은 부모 서브시스템에서 샘플 시간을 상속합니다.

MATLAB^® 환경에서는 환경이 진행될 때마다 에이전트가 실행됩니다. 이 경우 SampleTime은 sim 또는 train에 의해 반환되는 출력 경험의 연속된 요소 사이의 시간 간격입니다. SampleTime이 -1인 경우 반환되는 출력 경험의 연속된 요소 사이의 시간 간격은 에이전트 실행을 트리거하는 이벤트의 발생 시점을 반영합니다.

예: SampleTime=-1

`DiscountFactor` — 감가 인자
`0.99` (디폴트 값) | 1보다 작거나 같은 양의 스칼라

훈련 중에 미래 보상에 적용할 감가 인자로, 1보다 작거나 같은 양의 스칼라로 지정됩니다.

예: DiscountFactor=0.9

객체 함수

rlSARSAAgent SARSA reinforcement learning agent

예제

모두 축소

SARSA Agent Options 객체 만들기

라이브 스크립트 열기

에이전트 샘플 시간을 지정하는 rlSARSAAgentOptions 객체를 만듭니다.

opt = rlSARSAAgentOptions(SampleTime=0.5)

opt = 
  rlSARSAAgentOptions with properties:

                  SampleTime: 0.5000
              DiscountFactor: 0.9900
    EpsilonGreedyExploration: [1x1 rl.option.EpsilonGreedyExploration]
      CriticOptimizerOptions: [1x1 rl.option.rlOptimizerOptions]
                  InfoToSave: [1x1 struct]

점 표기법을 사용하여 옵션을 수정할 수 있습니다. 예를 들어, 에이전트 감가 인자를 0.95로 설정합니다.

opt.DiscountFactor = 0.95;

rlSARSAAgentOptions

설명

생성

구문

설명

속성

`EpsilonGreedyExploration` — 엡실론-그리디 탐색에 대한 옵션
`EpsilonGreedyExploration` 객체

`CriticOptimizerOptions` — 크리틱 최적화 함수 옵션
`rlOptimizerOptions` 객체

`SampleTime` — 에이전트의 샘플 시간
`1` (디폴트 값) | 양의 스칼라 | `-1`

`DiscountFactor` — 감가 인자
`0.99` (디폴트 값) | 1보다 작거나 같은 양의 스칼라

객체 함수

예제

SARSA Agent Options 객체 만들기

버전 내역

참고 항목

객체

도움말 항목

rlSARSAAgentOptions

설명

생성

구문

설명

속성

EpsilonGreedyExploration — 엡실론-그리디 탐색에 대한 옵션 EpsilonGreedyExploration 객체

CriticOptimizerOptions — 크리틱 최적화 함수 옵션 rlOptimizerOptions 객체

SampleTime — 에이전트의 샘플 시간 1 (디폴트 값) | 양의 스칼라 | -1

DiscountFactor — 감가 인자 0.99 (디폴트 값) | 1보다 작거나 같은 양의 스칼라

객체 함수

예제

SARSA Agent Options 객체 만들기

버전 내역

참고 항목

객체

도움말 항목

`EpsilonGreedyExploration` — 엡실론-그리디 탐색에 대한 옵션
`EpsilonGreedyExploration` 객체

`CriticOptimizerOptions` — 크리틱 최적화 함수 옵션
`rlOptimizerOptions` 객체

`SampleTime` — 에이전트의 샘플 시간
`1` (디폴트 값) | 양의 스칼라 | `-1`

`DiscountFactor` — 감가 인자
`0.99` (디폴트 값) | 1보다 작거나 같은 양의 스칼라