이 번역 페이지는 최신 내용을 담고 있지 않습니다. 최신 내용을 영문으로 보려면 여기를 클릭하십시오.
DQN(심층 Q-신경망) 에이전트
DQN(심층 Q-신경망) 알고리즘은 이산 행동 공간이 있는 환경에 대한 오프-폴리시 강화 학습 방법입니다. DQN 에이전트는 최적의 정책을 따를 때 기대되는 감가된 누적 장기 보상을 추정하도록 Q-값 함수를 훈련시킵니다. DQN은 타깃 크리틱과 경험 버퍼를 특징으로 하는 Q-러닝의 변형된 형태입니다. DQN 에이전트는 오프라인 훈련(환경 없이, 저장된 데이터에서 훈련)을 지원합니다. Q-러닝에 대한 자세한 내용은 Q-러닝 에이전트 항목을 참조하십시오. 다양한 유형의 강화 학습 에이전트에 대한 자세한 내용은 강화 학습 에이전트 항목을 참조하십시오.
Reinforcement Learning Toolbox™에서 DQN 에이전트는 rlDQNAgent
객체에 의해 구현됩니다.
다음과 같은 관측값 공간과 행동 공간이 있는 환경에서 DQN 에이전트를 훈련시킬 수 있습니다.
관측값 공간 | 행동 공간 |
---|---|
연속 또는 이산 | 이산 |
DQN 에이전트는 다음 크리틱을 사용합니다.
크리틱 | 액터 |
---|---|
| DQN 에이전트는 액터를 사용하지 않습니다. |
훈련 중 에이전트는 다음을 수행합니다.
학습하는 동안 각 시간 스텝에서 크리틱의 학습 가능한 파라미터를 업데이트합니다.
엡실론-그리디 탐색을 사용하여 행동 공간을 탐색합니다. 각 제어 간격 동안 에이전트는 확률 ϵ으로 임의의 행동을 선택하거나, 확률 1-ϵ으로 행동-가치 함수에 따라 탐욕적으로 행동을 선택합니다. 이 탐욕적 행동은 행동-가치 함수가 최대가 되는 행동입니다.
순환 경험 버퍼를 사용하여 과거의 경험을 저장합니다. 에이전트는 버퍼에서 무작위로 샘플링된 경험 미니 배치를 기반으로 하여 크리틱을 업데이트합니다.
DQN 에이전트에 사용되는 크리틱
최적의 정책 값을 추정하기 위해 DQN 에이전트는 두 개의 파라미터화된 행동-가치 함수를 사용하고, 이들 함수는 해당 크리틱에 의해 각각 관리됩니다.
크리틱 Q(S,A;ϕ) — 관측값 S와 행동 A가 주어지면 이 크리틱은 최적의 정책(즉, 최적의 정책 값)을 따를 때 기대되는 감가된 누적 장기 보상 추정값을 저장합니다.
타깃 크리틱 Qt(S,A;ϕt) — 최적화의 안정성을 높이기 위해 에이전트는 최신 크리틱 파라미터 값을 사용하여 타깃 크리틱의 학습 가능한 파라미터 ϕt를 주기적으로 업데이트합니다.
Q(S,A;ϕ)와 Qt(S,A;ϕt)는 모두 함수 근사기 객체에 의해 구현되고, 서로 동일한 구조와 파라미터화를 가집니다. 훈련이 진행되는 동안 훈련 알고리즘은 행동-가치 함수의 추정값을 개선하기 위해 크리틱 파라미터 값을 조정합니다. 훈련을 마친 후 파라미터는 훈련된 에이전트 내부의 크리틱에서 조정된 값으로 유지됩니다.
크리틱에 대한 자세한 내용은 Create Policies and Value Functions 항목을 참조하십시오.
DQN 에이전트 생성
MATLAB® 명령줄에서 또는 강화 학습 디자이너 앱을 사용하여 DQN 에이전트를 만들고 훈련시킬 수 있습니다. 강화 학습 디자이너를 사용하여 에이전트를 만드는 방법에 대한 자세한 내용은 Create Agents Using Reinforcement Learning Designer 항목을 참조하십시오.
명령줄에서 환경의 관측값 사양과 행동 사양을 기반으로 디폴트 DQN 에이전트를 만들 수 있습니다. 디폴트 DQN 에이전트는 심층 신경망 모델에 의존하는 함수 디폴트 근사기를 사용합니다. 이렇게 하려면 다음 단계를 수행하십시오.
환경에 대한 관측값 사양을 만듭니다. 환경 객체가 이미 있는 경우
getObservationInfo
를 사용하여 이러한 사양을 가져올 수 있습니다.환경에 대한 행동 사양을 만듭니다. 환경 객체가 이미 있는 경우
getActionInfo
를 사용하여 이러한 사양을 가져올 수 있습니다.필요한 경우, 각 학습 가능한 계층의 뉴런 개수(뉴런 개수의 디폴트 값은 256개임)를 지정하거나 LSTM 계층을 사용할지 여부(기본적으로 LSTM 계층은 사용되지 않음)를 지정합니다. 이렇게 하려면
rlAgentInitializationOptions
를 사용하여 agent initialization option 객체를 만드십시오.필요한 경우,
rlDQNAgentOptions
객체를 사용하여 에이전트 옵션을 지정합니다. 또는 이 단계를 건너뛰고 나중에 점 표기법을 사용하여 에이전트 옵션을 수정할 수 있습니다.rlDQNAgent
를 사용하여 에이전트를 만듭니다.
또는, 크리틱을 만들고 이를 사용하여 에이전트를 만들 수 있습니다. 이 경우 크리틱의 관측값 계층 차원과 행동 계층 차원이 환경의 대응하는 행동 사양, 관측값 사양과 일치하도록 해야 합니다.
환경에 대한 관측값 사양을 만듭니다. 환경 객체가 이미 있는 경우
getObservationInfo
를 사용하여 이러한 사양을 가져올 수 있습니다.환경에 대한 행동 사양을 만듭니다. 환경 객체가 이미 있는 경우
getActionInfo
를 사용하여 이러한 사양을 가져올 수 있습니다.크리틱에 대한 근사 모델을 만듭니다. 문제의 유형과 다음 단계에서 사용할 특정 크리틱에 따라 이 모델은
rlTable
객체(이산 관측값 공간에만 해당), 초기 파라미터 값을 갖는 사용자 지정 기저 함수 또는 신경망 객체가 될 수 있습니다. 생성된 모델의 입력값과 출력값은 다음 단계에서 사용하는 크리틱의 유형에 따라 달라집니다.rlQValueFunction
또는rlVectorQValueFunction
을 사용하여 크리틱을 만듭니다. 이전 단계에서 만든 모델을 첫 번째 입력 인수로 사용하십시오.rlDQNAgentOptions
객체를 사용하여 에이전트 옵션을 지정합니다. 또는 이 단계를 건너뛰고 나중에 점 표기법을 사용하여 에이전트 옵션을 수정할 수 있습니다.rlDQNAgent
를 사용하여 에이전트를 만듭니다.
DQN 에이전트는 순환 심층 신경망을 함수 근사기로 사용하는 크리틱을 지원합니다.
함수 근사를 위해 액터와 크리틱을 만드는 방법에 대한 자세한 내용은 Create Policies and Value Functions 항목을 참조하십시오.
DQN 훈련 알고리즘
DQN 에이전트는 다음 훈련 알고리즘을 사용하는데, 이 알고리즘은 각 시간 스텝에서 크리틱 모델을 업데이트합니다. 훈련 알고리즘을 구성하려면 rlDQNAgentOptions
객체를 사용하여 옵션을 지정하십시오.
임의의 파라미터 값 ϕ로 크리틱 Q(s,a;ϕ)를 초기화하고, 동일한 값으로 타깃 크리틱 파라미터 ϕt를 초기화합니다. .
엡실론-그리디 정책에 따라 순서대로 행동을 취하여 웜 스타트를 수행합니다.
각 에피소드가 시작할 때 환경에서 초기 관측값을 가져옵니다.
현재 관측값 S에 대해 확률 ϵ으로 임의의 행동 A를 선택합니다. 그렇게 하지 않을 경우에는 크리틱 가치 함수의 값이 최대인 행동을 선택합니다.
ϵ과 그 감쇠율을 지정하려면
EpsilonGreedyExploration
옵션을 사용하십시오.행동 A를 실행합니다. 보상 R과 다음 관측값 S'을 관측합니다.
경험 (S,A,R,S')을 경험 버퍼에 저장합니다.
ϵ이 최솟값보다 큰 경우
EpsilonGreedyExploration
에 설명된 것처럼 감쇠 연산을 수행합니다.
경험 버퍼의 크기를 지정하려면 에이전트
rlDQNAgentOptions
객체에ExperienceBufferLength
옵션을 사용하십시오. 워밍업 행동의 개수를 지정하려면NumWarmStartSteps
옵션을 사용하십시오.웜 스타트 절차 후 각 훈련 시간 스텝에 대해 다음을 수행합니다.
웜 스타트 절차에 설명된 5가지 연산을 실행합니다.
매 DC 시간 스텝마다(DC를 지정하려면
LearningFrequency
옵션 사용) 다음 두 가지 연산을NumEpoch
번 수행합니다.수집된 모든 경험을 활용하여 최대 B개의 서로 다른 미니 배치를 만듭니다. B를 지정하려면
MaxMiniBatchPerEpoch
옵션을 사용하십시오. 각 미니 배치에는 경험 버퍼에서 무작위로 샘플링된 M개의 서로 다른(일반적으로 비연속적인) 경험(Si,Ai,Ri,S'i)이 포함되어 있습니다(각 경험은 하나의 미니 배치에만 포함될 수 있음). M을 지정하려면MiniBatchSize
옵션을 사용하십시오.에이전트에 순환 신경망이 포함되어 있는 경우 각 미니 배치에는 M개의 서로 다른 시퀀스가 포함됩니다. 각 시퀀스에는 K개의 연속된 경험(무작위로 샘플링된 경험에서 시작)이 포함되어 있습니다. K를 지정하려면
SequenceLength
옵션을 사용하십시오.(무작위로 선택된) 각 미니 배치에 대해 미니 배치 학습 연산에 설명된 학습 연산을 수행합니다.
LearningFrequency
의 디폴트 값이 -1인 경우 미니 배치 생성(항목 a에 설명되어 있음)과 학습 연산(항목 b에 설명되어 있음)은 각 에피소드가 완료된 후에 실행됩니다.
미니 배치 학습 연산
각 미니 배치에 대해 수행되는 연산입니다.
EpsilonGreedyExploration
옵션에서 지정하는 감쇠율을 기반으로 임의의 행동을 선택하기 위한 확률 임계값 ϵ을 업데이트합니다.모든 샘플링된 경험에 걸쳐 손실 Lk의 단일 스텝 최소화를 통해 크리틱 파라미터를 업데이트합니다.
Lk를 최소화하는 데 사용할 최적화 함수 옵션을 지정하려면
CriticOptimizerOptions
옵션(이 옵션에는rlOptimizerOptions
객체가 포함됨)에 포함된 옵션을 사용하십시오.에이전트에 순환 신경망이 포함되어 있는 경우 배치 요소들의 합에 대한 각 요소는 그 자체가 시간(시퀀스) 차원에 대한 합이 됩니다.
S'i이 종료 상태인 경우 가치 함수 타깃 yi를 Ri로 설정합니다. 그 외의 경우에는 다음과 같이 설정합니다.
여기서 일반 DQN 알고리즘은 타깃 크리틱에 의해 관리되는 행동-가치 함수를 최대화하는 행동을 선택하는 반면, 더블 DQN은 기본 크리틱에 의해 관리되는 행동-가치 함수를 최대화하는 행동을 선택합니다.
감가 인자 γ를 설정하려면
DiscountFactor
옵션을 사용하십시오. 더블 DQN을 사용하려면UseDoubleDQN
옵션을true
로 설정하십시오.NumStepsToLookAhead
의 값을 N과 같도록 지정할 경우, N-스텝 리턴값(그다음 N개 스텝의 보상에 N번째 보상의 원인이 된 상태에 대한 감가 추정값을 더한 값)이 타깃 yi를 계산하는 데 사용됩니다.TargetUpdateFrequency
크리틱이 업데이트될 때마다 타깃 업데이트 방법에 따라 타깃 크리틱 파라미터를 업데이트합니다. 자세한 내용은 타깃 업데이트 방법 항목을 참조하십시오.
타깃 업데이트 방법
DQN 에이전트는 다음 타깃 업데이트 방법 중 하나를 사용하여 타깃 크리틱 파라미터를 업데이트합니다.
평활화 — 평활화 인자 τ를 사용하여 매 시간 스텝마다 타깃 파라미터를 업데이트합니다. 평활화 인자를 지정하려면
TargetSmoothFactor
옵션을 사용하십시오.주기적 — 평활화하지 않고 타깃 파라미터를 주기적으로 업데이트합니다(
TargetSmoothFactor = 1
). 업데이트 주기를 지정하려면TargetUpdateFrequency
파라미터를 사용하십시오.주기적 평활화 — 평활화를 사용하여 타깃 파라미터를 주기적으로 업데이트합니다.
타깃 업데이트 방법을 구성하려면 rlDQNAgentOptions
객체를 만들고, 다음 표에 표시된 대로 TargetUpdateFrequency
파라미터와 TargetSmoothFactor
파라미터를 설정하십시오.
업데이트 방법 | TargetUpdateFrequency | TargetSmoothFactor |
---|---|---|
평활화(디폴트 값) | 1 | 1 보다 작음 |
주기적 | 1 보다 큼 | 1 |
주기적 평활화 | 1 보다 큼 | 1 보다 작음 |
참고 문헌
[1] Mnih, Volodymyr, Koray Kavukcuoglu, David Silver, Alex Graves, Ioannis Antonoglou, Daan Wierstra, and Martin Riedmiller. “Playing Atari with Deep Reinforcement Learning.” ArXiv:1312.5602 [Cs], December 19, 2013. https://arxiv.org/abs/1312.5602.
참고 항목
객체
rlDQNAgent
|rlDQNAgentOptions
|rlQValueFunction
|rlVectorQValueFunction
|rlQAgent
|rlSARSAAgent
|rlLSPIAgent