주요 콘텐츠

이 번역 페이지는 최신 내용을 담고 있지 않습니다. 최신 내용을 영문으로 보려면 여기를 클릭하십시오.

진자가 위쪽으로 똑바로 서서 균형을 유지하도록 DQN 에이전트 훈련시키기

이 예제에서는 Simulink®에서 모델링된 진자가 위쪽으로 똑바로 서서 균형을 유지하도록 DQN(심층 Q-러닝 신경망) 에이전트를 훈련시키는 방법을 보여줍니다.

DQN 에이전트에 대한 자세한 내용은 DQN(심층 Q-신경망) 에이전트 항목을 참조하십시오. MATLAB®에서 DQN 에이전트를 훈련시키는 예제는 이산 카트-폴 시스템의 균형을 유지하도록 DQN 에이전트 훈련시키기 항목을 참조하십시오.

재현이 가능하도록 난수 스트림 고정하기

예제 코드의 다양한 단계에서 난수 계산이 포함될 수 있습니다. 예제 코드에 있는 다양한 섹션의 시작 부분에서 난수 스트림을 고정하면 매 실행 시에 섹션의 난수열이 유지되며 결과를 재현할 가능성이 높아집니다. 자세한 내용은 결과 재현성 항목을 참조하십시오.

시드값 0과 난수 알고리즘인 메르센 트위스터를 사용하여 난수 스트림을 고정합니다. 난수 생성에 사용되는 시드값을 제어하는 방법에 대한 자세한 내용은 rng 항목을 참조하십시오.

previousRngState = rng(0,"twister");

출력값 previousRngState는 스트림의 이전 상태에 대한 정보를 포함하는 구조체입니다. 이 예제의 끝부분에서 그 상태를 복원할 것입니다.

진자 스윙업 모델

이 예제의 강화 학습 환경은 처음에 아래쪽을 향해 매달려 있는 마찰 없는 단순 진자입니다. 훈련 목표는 최소한의 제어 노력으로 이 진자가 똑바로 서 있게 만드는 것입니다.

모델을 엽니다.

mdl = "rlSimplePendulumModel";
open_system(mdl)

이 모델의 경우 다음이 적용됩니다.

  • 위쪽으로 똑바로 균형이 잡혀 있을 때의 진자 위치는 0라디안이고, 아래쪽으로 매달려 있을 때의 진자 위치는 pi라디안입니다.

  • 에이전트에서 환경으로 전달되는 토크 행동 신호는 –2Nm에서 2Nm까지입니다.

  • 환경에서 관측하는 값은 진자 각의 사인, 진자 각의 코사인, 진자 각 도함수입니다.

  • 매 시간 스텝마다 제공되는 보상 rt는 다음과 같습니다.

rt=-(θt2+0.1θt˙2+0.001ut-12)

여기서 각 요소는 다음과 같습니다.

  • θt는 똑바로 세워진 위치에서의 변위 각도입니다.

  • θt˙는 변위 각도의 도함수입니다.

  • ut-1은 이전 시간 스텝의 제어 노력입니다.

이 모델에 대한 자세한 설명은 Load Predefined Control System Environments 항목을 참조하십시오.

환경 객체 만들기

진자에 대해 미리 정의된 환경 객체를 만듭니다.

env = rlPredefinedEnv("SimplePendulumModel-Discrete")
env = 
SimulinkEnvWithAgent with properties:

           Model : rlSimplePendulumModel
      AgentBlock : rlSimplePendulumModel/RL Agent
        ResetFcn : []
  UseFastRestart : on

객체에는 에이전트가 3개의 가능한 토크 값(–2Nm, 0Nm 또는 2Nm) 중 하나를 진자에 적용할 수 있는 이산 행동 공간이 있습니다.

진자의 초기 조건을 아래쪽을 향해 매달려 있는 것으로 정의하려면 익명 함수 핸들을 사용하여 환경 재설정 함수를 지정하십시오. 이 재설정 함수는 모델 작업 공간 변수 theta0pi로 설정합니다.

env.ResetFcn = @(in)setVariable(in,"theta0",pi,"Workspace",mdl);

환경에서 관측값 및 행동 사양 정보를 가져옵니다.

obsInfo = getObservationInfo(env)
obsInfo = 
  rlNumericSpec with properties:

     LowerLimit: -Inf
     UpperLimit: Inf
           Name: "observations"
    Description: [0×0 string]
      Dimension: [3 1]
       DataType: "double"

actInfo = getActionInfo(env)
actInfo = 
  rlFiniteSetSpec with properties:

       Elements: [3×1 double]
           Name: "torque"
    Description: [0×0 string]
      Dimension: [1 1]
       DataType: "double"

에이전트 샘플 시간 Ts와 시뮬레이션 시간 Tf를 초 단위로 지정합니다.

Ts = 0.05;
Tf = 20;

DQN 에이전트 만들기

에이전트를 생성하면 크리틱 신경망의 초기 파라미터가 난수 값으로 초기화됩니다. 에이전트가 항상 동일한 파라미터 값으로 초기화되도록 난수 스트림을 고정합니다.

rng(0,"twister");

은닉 계층 크기가 256인 크리틱 신경망을 초기화하기 위해 agent initialization 객체를 만듭니다.

initOpts = rlAgentInitializationOptions(NumHiddenUnit=256);

rlDQNAgentOptions 객체와 rlOptimizerOptions 객체를 사용하여 훈련에 대한 에이전트 옵션을 지정합니다. 이 훈련의 경우 다음이 적용됩니다.

  • 크리틱 학습률을 5e-3으로 지정합니다. 학습률이 높으면 대대적인 업데이트가 야기되어 발산이 발생할 수 있으며, 값이 낮으면 최적점에 도달하기까지 많은 업데이트가 필요할 수 있습니다.

  • 기울기 임계값 5를 사용하여 기울기를 자릅니다. 기울기를 자르면 훈련 안정성을 높일 수 있습니다.

  • 256개 경험 미니 배치를 사용합니다. 미니 배치 크기가 이보다 작으면 계산이 효율적이지만 훈련 시 변동성이 생길 수 있습니다. 반대로 미니 배치 크기가 이보다 크면 훈련이 안정되지만 메모리가 더 많이 필요할 수 있습니다.

  • 평활화 인자를 5e-3으로 지정하여 매 4회 학습 반복 시 타깃 크리틱 신경망을 업데이트합니다.

  • 더블 DQN 알고리즘을 사용하지 마십시오.

optimOpts = rlOptimizerOptions(LearnRate=5e-3, GradientThreshold=5);
agentOptions = rlDQNAgentOptions( ...
    SampleTime=Ts,...
    CriticOptimizerOptions=optimOpts,...
    ExperienceBufferLength=1e5,... 
    TargetSmoothFactor=5e-3,...
    UseDoubleDQN=false,...
    MiniBatchSize=256);

훈련 중 DQN 에이전트는 엡실론-그리디 알고리즘을 사용하여 행동 공간을 탐색합니다. 최솟값 0.1에 도달할 때까지, 훈련 중 엡실론 값이 점진적으로 감쇠되도록 감쇠율을 5e-5로 지정합니다. 그러면 에이전트가 적합한 정책이 없는 경우에는 시작 부분 쪽으로 탐색하도록 하고, 에이전트가 최적의 정책을 학습한 경우에는 끝부분 쪽으로 탐색하도록 합니다.

agentOptions.EpsilonGreedyExploration.EpsilonDecay = 5e-5;
agentOptions.EpsilonGreedyExploration.EpsilonMin = 0.1;

관측값 사양과 행동 입력 사양, 초기화 옵션과 에이전트 옵션을 사용하여 DQN 에이전트를 만듭니다.

agent = rlDQNAgent(obsInfo,actInfo,initOpts,agentOptions);

자세한 내용은 rlDQNAgent 항목을 참조하십시오.

에이전트 훈련시키기

에이전트를 훈련시키려면 먼저 훈련 옵션을 지정하십시오. 이 예제에서는 다음 옵션을 사용합니다.

  • 최대 1000개의 에피소드에 대해 각 훈련을 실행하며, 각 에피소드마다 최대 500개의 시간 스텝이 지속됩니다.

  • 강화 학습 훈련 모니터 대화 상자에 훈련 진행 상황을 표시하고(Plots 옵션 설정) 명령줄 표시를 비활성화합니다(Verbose 옵션을 false로 설정).

  • 훈련 에피소드 10개마다 그리디 정책 성능을 평가합니다.

  • 결정적 정책을 평가할 때 에이전트가 받은 평균 누적 보상이 –1100보다 크면 훈련을 중지합니다. 이 시점에서 에이전트는 진자가 똑바로 서 있는 위치에서 최소한의 제어 노력을 사용하여 빠르게 진자의 균형을 유지할 수 있습니다.

  • 누적 보상이 –1100보다 큰 각 에피소드에 대한 에이전트의 복사본을 저장합니다.

훈련 옵션에 대한 자세한 내용은 rlTrainingOptions 항목을 참조하십시오.

% training options
trainingOptions = rlTrainingOptions(...
    MaxEpisodes=1000,...
    MaxStepsPerEpisode=500,...
    ScoreAveragingWindowLength=5,...
    Verbose=false,...
    Plots="training-progress",...
    StopTrainingCriteria="EvaluationStatistic",...
    StopTrainingValue=-1100,...
    SaveAgentCriteria="EvaluationStatistic",...
    SaveAgentValue=-1100);

% agent evaluator
evl = rlEvaluator(EvaluationFrequency=10, NumEpisodes=1);

재현이 가능하도록 난수 스트림을 고정합니다.

rng(0,"twister");

train 함수를 사용하여 에이전트를 훈련시킵니다. 이 에이전트를 훈련시키는 것은 완료하는 데 수 분이 소요되는 계산 집약적인 절차입니다. 이 예제를 실행하는 동안 시간을 절약하려면 doTrainingfalse로 설정하여 사전 훈련된 에이전트를 불러오십시오. 에이전트를 직접 훈련시키려면 doTrainingtrue로 설정하십시오.

doTraining = false;
if doTraining
    % Train the agent.
    trainingStats = train(agent,env,trainingOptions, ...
        Evaluator=evl);
else
    % Load the pretrained agent for the example.
    load("SimulinkPendulumDQNMulti.mat","agent");
end

DQN 에이전트 시뮬레이션하기

재현이 가능하도록 난수 스트림을 고정합니다.

rng(0,"twister");

훈련된 에이전트의 성능을 검증하려면 진자 환경 내에서 에이전트를 시뮬레이션하십시오. 에이전트 시뮬레이션에 대한 자세한 내용은 rlSimulationOptions 항목과 sim 항목을 참조하십시오.

simOptions = rlSimulationOptions(MaxSteps=500);
experience = sim(env,agent,simOptions);

Figure Simple Pendulum Visualizer contains an axes object. The axes object contains 2 objects of type line, rectangle.

previousRngState에 저장된 정보를 사용하여 난수 스트림을 복원합니다.

rng(previousRngState);

참고 항목

함수

객체

블록

도움말 항목