Main Content

TD3(Twin-Delayed Deep Deterministic: 트윈 지연 심층 결정적) 정책 경사법 에이전트

TD3(트윈 지연 심층 결정적) 정책 경사법 알고리즘은 모델이 주어지지 않은(model-free) 온라인 방식의 오프-폴리시(off-policy) 강화 학습 방법입니다. TD3 에이전트는 기대되는 누적 장기 보상을 최대화하는 최적의 정책을 찾는 액터-크리틱 강화 학습 에이전트입니다.

다양한 유형의 강화 학습 에이전트에 대한 자세한 내용은 강화 학습 에이전트 항목을 참조하십시오.

TD3 알고리즘은 DDPG 알고리즘의 확장입니다. DDPG 에이전트는 가치 함수를 과대 추정하여 준최적의 정책을 생성할 수 있습니다. 가치 함수의 과대 추정을 줄이기 위해, TD3 알고리즘에는 다음과 같은 DDPG 알고리즘 수정 사항이 포함되어 있습니다.

  1. TD3 에이전트는 Q-값 함수를 2개 학습하고 정책 업데이트 중에 최소 가치 함수 추정값을 사용합니다.

  2. TD3 에이전트는 Q 함수보다 덜 빈번하게 정책과 타깃을 업데이트합니다.

  3. 정책을 업데이트할 때 TD3 에이전트는 타깃 행동에 잡음을 추가함으로써 정책이 Q-값 추정치가 높은 행동을 악용할 가능성을 줄입니다.

TD3 에이전트를 사용하면 지정한 크리틱 수에 따라 다음 훈련 알고리즘 중 하나를 구현할 수 있습니다.

  • TD3 — Q-값 함수 2개로 에이전트를 훈련시킵니다. 이 알고리즘은 위에 있는 3가지 수정 사항을 전부 구현합니다.

  • 지연된 DDPG — 단일 Q-값 함수로 에이전트를 훈련시킵니다. 이 알고리즘은 타깃 정책 평활화와 지연된 정책 및 타깃 업데이트로 DDPG 에이전트를 훈련시킵니다.

다음과 같은 관측값 공간과 행동 공간이 있는 환경에서 TD3 에이전트를 훈련시킬 수 있습니다.

관측값 공간행동 공간
연속 또는 이산연속

TD3 에이전트는 다음 액터와 크리틱을 사용합니다.

크리틱액터

rlQValueFunction을 사용하여 만드는 하나 이상의 Q-값 함수 크리틱 Q(S,A)

rlContinuousDeterministicActor를 사용하여 만드는 결정적 정책 액터 π(S)

TD3 에이전트는 훈련 과정에서 다음을 수행합니다.

  • 학습하는 동안 각 시간 스텝에서 액터 및 크리틱 속성을 업데이트합니다.

  • 순환 경험 버퍼를 사용하여 과거의 경험을 저장합니다. 에이전트는 버퍼에서 무작위로 샘플링된 경험 미니 배치를 사용하여 액터와 크리틱을 업데이트합니다.

  • 각 훈련 스텝에서 정책에 의해 선택된 행동을 확률적 잡음 모델을 사용하여 섭동합니다.

액터 함수와 크리틱 함수

정책과 가치 함수를 추정하기 위해 TD3 에이전트는 다음과 같은 함수 근사기를 관리합니다.

  • 결정적 액터 π(S;θ) — 액터는 파라미터 θ를 사용하면서 관측값 S를 받고 장기 보상을 최대화하는 행동을 반환합니다.

  • 타깃 액터 πt(S;θt) — 최적화의 안정성을 높이기 위해 에이전트는 최신 액터 파라미터 값을 사용하여 타깃 액터 파라미터 θt를 주기적으로 업데이트합니다.

  • 하나 또는 두 개의 Q-값 크리틱 Qk(S,A;ϕk) — 크리틱은 각각 서로 다른 파라미터 ϕk를 사용하면서 관측값 S와 행동 A를 입력값으로 받고 대응하는 장기 보상의 기대값을 반환합니다.

  • 하나 또는 두 개의 타깃 크리틱 Qtk(S,A;ϕtk) — 최적화의 안정성을 높이기 위해 에이전트는 해당하는 최신 크리틱 파라미터 값을 사용하여 타깃 크리틱 파라미터 ϕtk를 주기적으로 업데이트합니다. 타깃 크리틱 개수는 크리틱 개수와 일치합니다.

π(S;θ)와 πt(S;θt)는 서로 동일한 구조와 파라미터화를 가집니다.

각 크리틱에 대해 Qk(S,A;ϕk)와 Qtk(S,A;ϕtk)는 서로 동일한 구조와 파라미터화를 가집니다.

두 크리틱 Q1(S,A;ϕ1)과 Q2(S,A;ϕ2)를 사용하는 경우 각 크리틱이 서로 다른 구조를 가질 수 있지만, TD3은 두 크리틱의 구조가 동일할 때 가장 효과적입니다. 크리틱의 구조가 동일한 경우 초기 파라미터 값이 서로 달라야 합니다.

함수 근사를 위해 액터와 크리틱을 만드는 방법에 대한 자세한 내용은 Create Policies and Value Functions 항목을 참조하십시오.

훈련이 진행되는 동안 에이전트는 θ의 파라미터 값을 조정합니다. 훈련 후에 파라미터는 조정된 값으로 유지되고 훈련된 액터 함수 근사기는 π(S)에 저장됩니다.

에이전트 생성

MATLAB® 명령줄에서 또는 강화 학습 디자이너 앱을 사용하여 TD3 에이전트를 만들고 훈련시킬 수 있습니다. 강화 학습 디자이너를 사용하여 에이전트를 만드는 방법에 대한 자세한 내용은 Create Agents Using Reinforcement Learning Designer 항목을 참조하십시오.

명령줄에서 환경의 관측값 사양과 행동 사양을 기반으로 디폴트 액터와 크리틱을 사용하는 TD3 에이전트를 만들 수 있습니다. 이렇게 하려면 다음 단계를 수행하십시오.

  1. 환경에 대한 관측값 사양을 만듭니다. 환경 인터페이스 객체가 이미 있는 경우 getObservationInfo를 사용하여 이러한 사양을 가져올 수 있습니다.

  2. 환경에 대한 행동 사양을 만듭니다. 환경 인터페이스 객체가 이미 있는 경우 getActionInfo를 사용하여 이러한 사양을 가져올 수 있습니다.

  3. 필요한 경우, 각 학습 가능한 계층의 뉴런 개수를 지정하거나 LSTM 계층을 사용할지 여부를 지정합니다. 이렇게 하려면 rlAgentInitializationOptions를 사용하여 agent initialization option 객체를 만드십시오.

  4. 필요한 경우, rlTD3AgentOptions 객체를 사용하여 에이전트 옵션을 지정합니다.

  5. rlTD3Agent 객체를 사용하여 에이전트를 만듭니다.

또는, 액터와 크리틱을 만들고 이러한 객체를 사용하여 에이전트를 만들 수 있습니다. 이 경우 액터와 크리틱의 입력 차원, 출력 차원이 환경의 대응하는 행동 사양, 관측값 사양과 일치하도록 해야 합니다.

  1. rlContinuousDeterministicActor 객체를 사용하여 액터를 만듭니다.

  2. rlQValueFunction 객체를 사용하여 크리틱을 하나 또는 두 개 만듭니다.

  3. rlTD3AgentOptions 객체를 사용하여 에이전트 옵션을 지정합니다.

  4. rlTD3Agent 객체를 사용하여 에이전트를 만듭니다.

함수 근사를 위해 액터와 크리틱을 만드는 방법에 대한 자세한 내용은 Create Policies and Value Functions 항목을 참조하십시오.

훈련 알고리즘

TD3 에이전트는 다음 훈련 알고리즘을 사용하는데, 이 알고리즘은 각 시간 스텝에서 액터 모델과 크리틱 모델을 업데이트합니다. 훈련 알고리즘을 구성하려면 rlTD3AgentOptions 객체를 사용하여 옵션을 지정하십시오. 여기서 K = 2는 크리틱 개수이고 k는 크리틱 인덱스입니다.

  • 임의의 파라미터 값 ϕk로 각 크리틱 Qk(S,A;ϕk)를 초기화하고, 동일한 임의의 파라미터 값으로 각 타깃 크리틱을 초기화합니다. ϕtk=ϕk.

  • 임의의 파라미터 값 θ로 액터 π(S;θ)를 초기화하고, 동일한 파라미터 값으로 타깃 액터를 초기화합니다. θt=θ.

  • 각 훈련 시간 스텝에 대해 다음을 수행합니다.

    1. 현재 관측값 S에 대해 행동 A = π(S;θ) + N을 선택합니다. 여기서 N은 잡음 모델의 확률적 잡음입니다. 잡음 모델을 구성하려면 ExplorationModel 옵션을 사용하십시오.

    2. 행동 A를 실행합니다. 보상 R과 다음 관측값 S'을 관측합니다.

    3. 경험 (S,A,R,S')을 경험 버퍼에 저장합니다.

    4. 경험 버퍼에서 M개의 경험 미니 배치(Si,Ai,Ri,S'i)를 무작위로 샘플링합니다. M을 지정하려면 MiniBatchSize 옵션을 사용하십시오.

    5. S'i이 종료 상태인 경우 가치 함수 타깃 yi를 Ri로 설정합니다. 그 외의 경우에는 다음과 같이 설정합니다.

      yi=Ri+γ*mink(Qtk(Si',clip(πt(Si';θt)+ε);ϕtk))

      가치 함수 타깃은 경험 보상 Ri와 크리틱에서 반환된 최소의 감가된 미래 보상의 합입니다. 감가 인자 γ를 지정하려면 DiscountFactor 옵션을 사용하십시오.

      누적 보상을 계산하기 위해 먼저 에이전트는 샘플링된 경험에서 받은 다음 관측값 S'i를 타깃 액터로 전달하여 다음 행동을 계산합니다. 그런 다음 에이전트는 TargetPolicySmoothModel을 사용하여 계산된 행동에 잡음 ε을 추가하고 잡음 상한 및 하한을 기준으로 행동을 자릅니다. 에이전트는 다음 행동을 타깃 크리틱에 전달하여 누적 보상을 구합니다.

      NumStepsToLookAhead의 값을 N과 같도록 지정할 경우, N-스텝 리턴값(그다음 N개 스텝의 보상에 N번째 보상의 원인이 된 상태에 대한 감가 추정값을 더한 값)이 타깃 yi를 계산하는 데 사용됩니다.

    6. 매 훈련 시간 스텝마다, 모든 샘플링된 경험에 걸쳐 손실 Lk의 최소화를 통해 각 크리틱의 파라미터를 업데이트합니다.

      Lk=12Mi=1M(yiQk(Si,Ai;ϕk))2

    7. D1 스텝마다 기대되는 감가 보상을 최대화하기 위해 다음과 같이 샘플링되는 정책 경사를 사용하여 액터 파라미터를 업데이트합니다. D1을 설정하려면 PolicyUpdateFrequency 옵션을 사용하십시오.

      θJ1Mi=1MGaiGπiGai=Amink(Qk(Si,A;ϕ))whereA=π(Si;θ)Gπi=θπ(Si;θ)

      여기서 Gai는 액터 신경망에서 계산된 행동에 대한 최소 크리틱 출력값의 기울기이고, Gπi는 액터 파라미터에 대한 액터 출력값의 기울기입니다. 두 기울기는 관측값 Si에 대해 계산됩니다.

    8. D2 스텝마다 타깃 업데이트 방법에 따라 타깃 액터와 크리틱을 업데이트합니다. D2를 지정하려면 TargetUpdateFrequency 옵션을 사용하십시오. 자세한 내용은 타깃 업데이트 방법 항목을 참조하십시오.

단순화를 위해, 이 알고리즘에서 액터와 크리틱이 수행하는 업데이트는 기본 방법인 확률적 경사하강법을 사용한 기울기 업데이트를 보여 줍니다. 실제 기울기 업데이트 방법은 rlOptimizerOptions 객체를 사용하여 지정하는 rlCriticOptimizerOptions 속성에 할당된 최적화 함수에 따라 달라집니다.

타깃 업데이트 방법

TD3 에이전트는 다음 타깃 업데이트 방법 중 하나를 사용하여 타깃 액터와 크리틱 파라미터를 업데이트합니다.

  • 평활화 — 평활화 인자 τ를 사용하여 매 시간 스텝마다 타깃 파라미터를 업데이트합니다. 평활화 인자를 지정하려면 TargetSmoothFactor 옵션을 사용하십시오.

    ϕtk=τϕk+(1τ)ϕtk(critic parameters)θt=τθ+(1τ)θt(actor parameters)

  • 주기적 — 평활화하지 않고 타깃 파라미터를 주기적으로 업데이트합니다(TargetSmoothFactor = 1). 업데이트 주기를 지정하려면 TargetUpdateFrequency 파라미터를 사용하십시오.

    ϕtk=ϕkθt=θ

  • 주기적 평활화 — 평활화를 사용하여 타깃 파라미터를 주기적으로 업데이트합니다.

타깃 업데이트 방법을 구성하려면 rlTD3AgentOptions 객체를 만들고, 다음 표에 표시된 대로 TargetUpdateFrequency 파라미터와 TargetSmoothFactor 파라미터를 설정하십시오.

업데이트 방법TargetUpdateFrequencyTargetSmoothFactor
평활화(디폴트 값)11보다 작음
주기적1보다 큼1
주기적 평활화1보다 큼1보다 작음

참고 문헌

[1] Fujimoto, Scott, Herke van Hoof, and David Meger. "Addressing Function Approximation Error in Actor-Critic Methods". ArXiv:1802.09477 [Cs, Stat], 22 October 2018. https://arxiv.org/abs/1802.09477.

참고 항목

객체

관련 예제

세부 정보