rlDQNAgentOptions
DQN 에이전트에 대한 옵션
설명
DQN(심층 Q-신경망) 에이전트를 만들 때 rlDQNAgentOptions
객체를 사용하여 옵션을 지정합니다. DQN 에이전트를 만들려면 rlDQNAgent
를 사용하십시오.
자세한 내용은 DQN(심층 Q-신경망) 에이전트 항목을 참조하십시오.
다양한 유형의 강화 학습 에이전트에 대한 자세한 내용은 강화 학습 에이전트 항목을 참조하십시오.
생성
설명
는 전부 디폴트 설정을 사용하여 DQN 에이전트를 만들 때 인수로 사용할 options 객체를 만듭니다. 점 표기법을 사용하여 객체 속성을 수정할 수 있습니다.opt
= rlDQNAgentOptions
속성
에이전트의 샘플 시간으로, 양의 스칼라 또는 -1
로 지정됩니다.
MATLAB® 환경에서는 환경이 진행될 때마다 에이전트가 실행되므로, SampleTime
이 에이전트 실행 시점에 영향을 주지 않습니다. SampleTime
이 -1
로 설정된 경우 MATLAB 환경에서는 반환되는 출력 경험의 연속된 요소 사이의 시간 간격이 1
로 간주됩니다.
Simulink® 환경에서는 agent 객체를 사용하는 RL Agent 블록이 시뮬레이션 시간의 매 SampleTime
초마다 실행됩니다. SampleTime
이 -1
로 설정된 경우 블록은 입력 신호에서 샘플 시간을 상속합니다. 이 블록이 이벤트 기반 서브시스템의 자식인 경우에는 SampleTime
을 -1
로 설정하십시오.
이 블록이 이벤트 기반 서브시스템의 자식이 아닌 경우에는 SampleTime
을 양의 스칼라로 설정하십시오. 이렇게 설정하면 입력 신호 샘플 시간이 모델 변동으로 인해 변할 때 블록이 적절한 간격으로 실행되도록 보장됩니다. SampleTime
이 양의 스칼라인 경우 이 값은 환경의 유형에 관계없이 sim
또는 train
에 의해 반환되는 출력 경험의 연속된 요소 사이의 시간 간격이기도 합니다.
SampleTime
이 -1
로 설정된 경우 Simulink 환경에서는 반환되는 출력 경험의 연속된 요소 사이의 시간 간격이 RL Agent 블록 실행을 트리거하는 이벤트의 발생 시점을 반영합니다.
이 속성은 에이전트와 에이전트 내 agent options 객체 간에 공유됩니다. agent options 객체에서 이 속성을 변경하면 에이전트에서도 변경되며 그 반대의 경우에도 마찬가지입니다.
예: SampleTime=-1
훈련 중에 미래 보상에 적용할 감가 인자로, 1보다 작거나 같은 음이 아닌 스칼라로 지정됩니다.
예: DiscountFactor=0.9
엡실론-그리디 탐색에 대한 옵션으로, 다음 속성을 갖는 EpsilonGreedyExploration
객체로 지정됩니다.
속성 | 설명 | 디폴트 값 |
---|---|---|
Epsilon | 행동을 무작위로 선택하거나 상태-행동 가치 함수를 최대화하는 행동을 선택하기 위한 확률 임계값의 초기값입니다. Epsilon 값이 더 크다는 것은 에이전트가 더 높은 비율로 행동 공간을 무작위로 탐색한다는 의미입니다. | 1 |
EpsilonMin | Epsilon 의 최솟값 | 0.01 |
EpsilonDecay | 감쇠율 | 0.0050 |
환경과의 각 상호 작용(즉, 각 훈련 스텝)에서 Epsilon
이 EpsilonMin
보다 크면 다음 공식에 따라 업데이트됩니다.
Epsilon = Epsilon*(1-EpsilonDecay)
Epsilon
은 한 에피소드의 끝과 다음 에피소드의 시작 사이에 보존됩니다. 따라서 Epsilon
은 EpsilonMin
에 도달할 때까지 여러 에피소드에 걸쳐 균일하게 감소합니다.
에이전트가 국소 최적해에 너무 빠르게 수렴할 경우 Epsilon
의 값을 높여서 에이전트 탐색을 촉진할 수 있습니다.
탐색 옵션을 지정하려면 rlDQNAgentOptions
객체 opt
를 만든 후에 점 표기법을 사용하십시오. 예를 들어, 초기 엡실론 값을 0.9
로 설정합니다.
opt.EpsilonGreedyExploration.Epsilon = 0.9;
참고
EpsilonGreedyExploration
객체의 Epsilon
속성은 첫 번째 에피소드 시작 시의 초기 Epsilon
값을 나타냅니다.
경험 버퍼 크기로, 양의 정수로 지정됩니다. 훈련 중에 에이전트는 버퍼에서 무작위로 샘플링된 경험 미니 배치를 사용하여 업데이트를 계산합니다.
예: ExperienceBufferLength=1e6
무작위 경험 미니 배치의 크기로, 양의 정수로 지정됩니다. 각 훈련 에피소드 중에 에이전트는 크리틱 속성 업데이트를 위한 기울기를 계산할 때 경험 버퍼에서 무작위로 경험을 샘플링합니다. 대규모 미니 배치를 사용하면 기울기 계산 시 분산을 줄일 수 있지만 계산 노력이 늘어납니다.
크리틱에 순환 신경망을 사용할 경우 MiniBatchSize
는 배치에 포함되는 경험 궤적의 수입니다. 여기서 각 궤적의 길이는 SequenceLength
와 동일합니다.
예: MiniBatchSize=128
순환 신경망을 사용할 때의 최대 배치-훈련 궤적 길이로, 양의 정수로 지정됩니다. 이 값은 순환 신경망을 사용하는 경우 1
보다 커야 하고, 그 외에는 1
이어야 합니다.
예: SequenceLength=4
크리틱 최적화 함수 옵션으로, rlOptimizerOptions
객체로 지정됩니다. 이 옵션을 사용하면 학습률, 기울기 임계값뿐 아니라 최적화 함수 알고리즘과 그 파라미터 같은 크리틱 근사기의 훈련 파라미터를 지정할 수 있습니다. 자세한 내용은 rlOptimizerOptions
항목과 rlOptimizer
항목을 참조하십시오.
예: CriticOptimizerOptions = rlOptimizerOptions(LearnRate=5e-3)
정책 값 추정에 사용되는 미래 보상 수로, 양의 정수로 지정됩니다. 구체적으로 설명하면, NumStepsToLookAhead
가 N과 같은 경우 주어진 스텝에서 정책의 타깃 값은 그다음 N개 스텝의 보상에 N번째 보상의 원인이 된 상태에 대한 감가 추정값을 더하여 계산됩니다. 이 타깃을 N-스텝 리턴값이라고도 합니다.
참고
크리틱에 순환 신경망을 사용하는 경우 NumStepsToLookAhead
는 1
이어야 합니다.
자세한 내용은 [1]의 7장을 참조하십시오.
예: NumStepsToLookAhead=3
학습 시작 전에 생성할 최소 샘플 수입니다. 훈련 시작 시 더욱 다양한 데이터 세트에 대해 학습이 이루어지도록 하려면 이 옵션을 사용하십시오. MiniBatchSize
의 값이 디폴트 값이자 최솟값입니다. 최소 NumWarmStartSteps
개의 샘플이 수집되면 LearningFrequency
속성으로 지정된 간격으로 학습이 이루어집니다.
예: NumWarmStartSteps=20
에이전트가 경험 버퍼에 저장된 데이터 세트를 학습하는 횟수로, 양의 정수로 지정됩니다. 이 속성을 지원하는 오프-폴리시 에이전트(DQN, DDPG, TD3, SAC)의 경우, 매 학습 반복 시 재생 버퍼에서 데이터를 통과하는 횟수가 이 값에 의해 정의됩니다.
예: NumEpoch=2
한 번의 Epoch 동안 학습에 사용되는 미니 배치의 최대 수로, 양의 정수로 지정됩니다.
이 속성을 지원하는 오프-폴리시 에이전트(DQN, DDPG, TD3, SAC)의 경우 학습에 사용되는 실제 미니 배치 수는 재생 버퍼의 길이에 따라 달라지며 MaxMiniBatchPerEpoch
가 상한을 지정합니다. MaxMiniBatchPerEpoch
값에 NumEpoch
값을 곱한 값이 기울기 스텝의 최대 수이기 때문에 각 학습 반복당 기울기 스텝의 최대 수도 이 값에 의해 지정됩니다.
이 속성을 지원하는 오프-폴리시 에이전트의 경우 MaxMiniBatchPerEpoch
값이 높으면 새 데이터 수집보다 학습에 더 많은 시간을 쓴다는 의미입니다. 따라서 이 파라미터를 사용하여 학습 프로세스의 샘플 효율성을 제어할 수 있습니다.
예: MaxMiniBatchPerEpoch=200
학습 반복 간에 이루어지는 환경 상호 작용의 최소 수로, 양의 정수 또는 -1
로 지정됩니다. 이 값에 따라 학습 전에 생성해야 할 새로운 데이터 샘플 수가 정해집니다. DQN, DDPG, TD3, SAC 에이전트의 경우 디폴트 값 -1
은 각 에피소드가 끝난 후에 학습이 이루어짐을 의미합니다. 이러한 에이전트의 경우 최소 NumWarmStartSteps
개의 샘플이 수집되어야 학습이 시작됩니다. 그 이후부터는 LearningFrequency
속성에 지정된 간격에 따라 학습이 이루어집니다.
예: LearningFrequency=4
가치 함수 타깃 업데이트에 더블 DQN을 사용하기 위한 옵션으로, 논리값으로 지정됩니다. 자세한 내용은 DQN(심층 Q-신경망) 에이전트 항목을 참조하십시오.
예: UseDoubleDQN=false
타깃 크리틱 업데이트를 위한 평활화 인자로, 1보다 작거나 같은 양의 스칼라로 지정됩니다. 자세한 내용은 타깃 업데이트 방법 항목을 참조하십시오.
예: TargetSmoothFactor=1e-2
다음 타깃 크리틱 업데이트로 넘어가기 전의 스텝 수로, 양의 정수로 지정됩니다. 자세한 내용은 타깃 업데이트 방법 항목을 참조하십시오.
예: TargetUpdateFrequency=5
배치 데이터 정규화 함수 옵션으로, rlBehaviorCloningRegularizerOptions
객체로 지정됩니다. 이러한 옵션은 일반적으로 기존 데이터에서부터 에이전트를 오프라인으로 훈련시키는 데 사용됩니다. 이 옵션을 비워 두면 정규화 함수가 사용되지 않습니다.
자세한 내용은 rlBehaviorCloningRegularizerOptions
항목을 참조하십시오.
예: BatchDataRegularizerOptions = rlBehaviorCloningRegularizerOptions(BehaviorCloningRegularizerWeight=10)
훈련 전 경험 버퍼를 지우기 위한 옵션으로, 논리값으로 지정됩니다.
예: ResetExperienceBufferBeforeTraining=true
추가적인 에이전트 데이터를 저장하기 위한 옵션으로, 다음 필드를 포함하는 구조체로 지정됩니다.
Optimizer
PolicyState
Target
ExperienceBuffer
다음 방법 중 하나를 사용하여 agent 객체를 저장할 수 있습니다.
save
명령을 사용합니다.rlTrainingOptions
객체에saveAgentCriteria
와saveAgentValue
를 지정합니다.FileLogger
객체 내에 적절한 기록 함수를 지정합니다.
위 방법을 사용하여 에이전트를 저장할 경우, InfoToSave
구조체의 필드 값에 따라 해당 데이터를 에이전트와 함께 저장할지 여부가 결정됩니다. 예를 들어, PolicyState
필드를 true
로 설정하면 정책 상태가 에이전트와 함께 저장됩니다.
InfoToSave
속성을 수정하는 것은 agent options 객체를 만든 후에만 가능합니다.
예: options.InfoToSave.Optimizer=true
액터 및 크리틱 최적화 함수를 저장하기 위한 옵션으로, 논리값으로 지정됩니다. Optimizer
필드를 false
로 설정하면, (에이전트의 숨겨진 속성이며 내부 상태를 가질 수 있는) 액터 및 크리틱 최적화 함수가 에이전트와 함께 저장되지 않으므로 디스크 공간과 메모리가 절약됩니다. 그러나 최적화 함수에 내부 상태가 포함되어 있다면, 저장된 에이전트의 상태가 원래 에이전트의 상태와 동일하지 않게 됩니다.
예: true
탐색적 정책의 상태를 저장하기 위한 옵션으로, 논리값으로 지정됩니다. PolicyState
필드를 false
로 설정하면, (숨겨진 에이전트 속성인) 탐색적 정책의 상태가 에이전트와 함께 저장되지 않습니다. 이 경우 저장된 에이전트의 상태는 원래 에이전트의 상태와 동일하지 않습니다.
예: true
액터 및 크리틱 타깃을 저장하기 위한 옵션으로, 논리값으로 지정됩니다. Target
필드를 false
로 설정하면, (숨겨진 에이전트 속성인) 액터 및 크리틱 타깃이 에이전트와 함께 저장되지 않습니다. 이 경우 타깃에 내부 상태가 포함되어 있으면, 저장된 에이전트의 상태가 원래 에이전트의 상태와 동일하지 않게 됩니다.
예: true
경험 버퍼를 저장하기 위한 옵션으로, 논리값으로 지정됩니다. PolicyState
필드를 false
로 설정하면, (점 표기법을 사용하여 에이전트 속성으로 액세스할 수 있는) 경험 버퍼의 내용이 에이전트와 함께 저장되지 않습니다. 이 경우 저장된 에이전트의 상태는 원래 에이전트의 상태와 동일하지 않습니다.
예: true
객체 함수
rlDQNAgent | DQN(심층 Q-신경망) 강화 학습 에이전트 |
예제
에이전트의 미니 배치 크기를 지정하는 rlDQNAgentOptions
객체를 만듭니다.
opt = rlDQNAgentOptions(MiniBatchSize=48)
opt = rlDQNAgentOptions with properties: SampleTime: 1 DiscountFactor: 0.9900 EpsilonGreedyExploration: [1×1 rl.option.EpsilonGreedyExploration] ExperienceBufferLength: 10000 MiniBatchSize: 48 SequenceLength: 1 CriticOptimizerOptions: [1×1 rl.option.rlOptimizerOptions] NumStepsToLookAhead: 1 NumWarmStartSteps: 48 NumEpoch: 1 MaxMiniBatchPerEpoch: 100 LearningFrequency: -1 UseDoubleDQN: 1 TargetSmoothFactor: 1.0000e-03 TargetUpdateFrequency: 1 BatchDataRegularizerOptions: [] ResetExperienceBufferBeforeTraining: 0 InfoToSave: [1×1 struct]
점 표기법을 사용하여 옵션을 수정할 수 있습니다. 예를 들어, 에이전트 샘플 시간을 0.5
로 설정합니다.
opt.SampleTime = 0.5;
참고 문헌
[1] Sutton, Richard S., and Andrew G. Barto. Reinforcement Learning: An Introduction. Second edition. Adaptive Computation and Machine Learning. Cambridge, Mass: The MIT Press, 2018.
버전 내역
R2019a에 개발됨ResetExperienceBufferBeforeTraining
의 디폴트 값이 true
에서 false
로 변경되었습니다.
새 DQN 에이전트를 만들 때 훈련 전에 경험 버퍼를 지우려면 ResetExperienceBufferBeforeTraining
을 true
로 지정해야 합니다. 예를 들어, 훈련 전에 점 표기법을 사용하여 이 속성을 설정합니다.
agent.AgentOptions.ResetExperienceBufferBeforeTraining = true;
또는 rlDQNAgentOptions
객체에서 이 속성을 true
로 설정하고 이 객체를 사용하여 DQN 에이전트를 만들 수 있습니다.
DQN 에이전트에 대한 타깃 업데이트 방법 설정이 변경되었습니다. 다음과 같이 변경되었으며, 이에 따라 코드 업데이트가 필요합니다.
TargetUpdateMethod
옵션이 제거되었습니다. 이제 DQN 에이전트가TargetUpdateFrequency
및TargetSmoothFactor
옵션 값에 따라 타깃 업데이트 방법을 결정합니다.TargetUpdateFrequency
의 디폴트 값이4
에서1
로 변경되었습니다.
다음 타깃 업데이트 방법 중 하나를 사용하려면 TargetUpdateFrequency
속성과 TargetSmoothFactor
속성을 표시된 대로 설정하십시오.
업데이트 방법 | TargetUpdateFrequency | TargetSmoothFactor |
---|---|---|
평활화 | 1 | 1 보다 작음 |
주기적 | 1 보다 큼 | 1 |
주기적 평활화(R2020a에 새로 추가된 방법) | 1 보다 큼 | 1 보다 작음 |
TargetSmoothFactor
값 0.001
을 사용하여 평활화 업데이트를 수행하는 디폴트 타깃 업데이트 구성은 그대로 유지됩니다.
다음 표에는 rlDQNAgentOptions
의 일반적인 사용법과 새 옵션 구성을 사용하도록 코드를 업데이트하는 방법이 나와 있습니다.
권장되지 않음 | 권장 |
---|---|
opt = rlDQNAgentOptions('TargetUpdateMethod',"smoothing"); | opt = rlDQNAgentOptions; |
opt = rlDQNAgentOptions('TargetUpdateMethod',"periodic"); | opt = rlDQNAgentOptions; opt.TargetUpdateFrequency = 4; opt.TargetSmoothFactor = 1; |
opt = rlDQNAgentOptions; opt.TargetUpdateMethod = "periodic"; opt.TargetUpdateFrequency = 5; | opt = rlDQNAgentOptions; opt.TargetUpdateFrequency = 5; opt.TargetSmoothFactor = 1; |
MATLAB Command
You clicked a link that corresponds to this MATLAB command:
Run the command by entering it in the MATLAB Command Window. Web browsers do not support MATLAB commands.
웹사이트 선택
번역된 콘텐츠를 보고 지역별 이벤트와 혜택을 살펴보려면 웹사이트를 선택하십시오. 현재 계신 지역에 따라 다음 웹사이트를 권장합니다:
또한 다음 목록에서 웹사이트를 선택하실 수도 있습니다.
사이트 성능 최적화 방법
최고의 사이트 성능을 위해 중국 사이트(중국어 또는 영어)를 선택하십시오. 현재 계신 지역에서는 다른 국가의 MathWorks 사이트 방문이 최적화되지 않았습니다.
미주
- América Latina (Español)
- Canada (English)
- United States (English)
유럽
- Belgium (English)
- Denmark (English)
- Deutschland (Deutsch)
- España (Español)
- Finland (English)
- France (Français)
- Ireland (English)
- Italia (Italiano)
- Luxembourg (English)
- Netherlands (English)
- Norway (English)
- Österreich (Deutsch)
- Portugal (English)
- Sweden (English)
- Switzerland
- United Kingdom (English)