이산 카트-폴 시스템의 균형을 유지하도록 PG 에이전트 훈련시키기

라이브 스크립트 열기

이 예제에서는 MATLAB®에서 모델링된 이산 행동 공간 카트-폴 시스템의 균형을 유지하도록 PG(정책 경사) 에이전트를 훈련시키는 방법을 보여줍니다. PG 에이전트에 대한 자세한 내용은 REINFORCE Policy Gradient (PG) Agent 항목을 참조하십시오.

기준이 있는 PG 에이전트를 훈련시키는 예제는 Train PG Agent with Custom Actor and Baseline Networks to Control Discrete Double Integrator 항목을 참조하십시오.

예제 코드의 다양한 단계에서 난수 계산이 포함될 수 있습니다. 예제 코드에 있는 다양한 섹션의 시작 부분에서 난수 스트림을 고정하면 매 실행 시에 섹션의 난수열이 유지되며 결과를 재현할 가능성이 높아집니다. 자세한 내용은 결과 재현성 항목을 참조하십시오.

재현이 가능하도록 난수 스트림 고정하기

시드값 0과 난수 알고리즘인 메르센 트위스터를 사용하여 난수 스트림을 고정합니다. 난수 생성에 사용되는 시드값을 제어하는 방법에 대한 자세한 내용은 rng 항목을 참조하십시오.

previousRngState = rng(0,"twister");

출력값 previousRngState는 스트림의 이전 상태에 대한 정보를 포함하는 구조체입니다. 이 예제의 끝부분에서 그 상태를 복원할 것입니다.

이산 행동 공간 카트-폴 MATLAB 환경

이 예제의 강화 학습 환경은 카트의 비구동 관절에 붙어 있는 막대로, 카트는 마찰이 없는 트랙을 따라 움직입니다. 훈련 목표는 이 진자가 똑바로 서 있게 만드는 것입니다.

이 환경의 경우 다음이 적용됩니다.

위쪽으로 똑바로 균형이 잡혀 있을 때의 진자 위치는 0라디안이고, 아래쪽으로 매달려 있을 때의 진자 위치는 pi라디안입니다.
진자의 초기 각이 –0.05라디안과 0.05라디안 사이이고 위쪽을 향해 있을 때 시작합니다.
에이전트에서 환경으로 전달되는 힘 행동 신호는 –10N 또는 10N입니다.
환경에서 관측하는 값은 카트의 위치와 속도, 진자 각(시계 방향을 양의 방향으로 간주), 진자 각 도함수입니다.
막대가 수직에서 12도 이상 기울거나 카트가 원래 위치에서 2.4m 이상 이동하면 에피소드가 종료됩니다.
막대가 위쪽을 향해 바로 서 있는 매 시간 스텝마다 보상 +1이 주어집니다. 진자가 넘어지면 벌점 –5가 적용됩니다.

이 모델에 대한 자세한 설명은 Use Predefined Control System Environments 항목을 참조하십시오.

환경 객체 만들기

진자에 대해 미리 정의된 환경 객체를 만듭니다.

env = rlPredefinedEnv("CartPole-Discrete")

env = 
  CartPoleDiscreteAction with properties:

                  Gravity: 9.8000
                 MassCart: 1
                 MassPole: 0.1000
                   Length: 0.5000
                 MaxForce: 10
                       Ts: 0.0200
    ThetaThresholdRadians: 0.2094
               XThreshold: 2.4000
      RewardForNotFalling: 1
        PenaltyForFalling: -5
                    State: [4×1 double]

객체에는 에이전트가 힘 값 –10N 또는 10N 중 하나를 카트에 적용할 수 있는 이산 행동 공간이 있습니다.

환경 객체에서 관측값과 행동 정보를 가져옵니다.

obsInfo = getObservationInfo(env);
actInfo = getActionInfo(env);

사용자 지정 신경망으로 PG 에이전트 만들기

정책 경사 에이전트의 경우 액터는 이산 행동 공간에서 이산 범주형 액터에 의해 근사되는 확률적 정책을 실행합니다. 이 액터는 관측값 신호를 입력값으로 받고 각 행동에 대한 확률을 반환해야 합니다.

카트 위에서 폴을 안정되게 유지하려면 파라미터화된 간단한 정책만 있으면 되므로 기준이 없는 사용자 지정 PG 에이전트를 정의하십시오. 액터 내에서 파라미터화된 정책을 구현하려면, 10개 뉴런이 포함된 단 하나의 은닉 계층을 갖는 단순 신경망을 사용하십시오.

신경망을 layer 객체로 구성된 배열로 정의하고, 환경 사양 객체에서 관측값 공간 차원과 가능한 행동 개수를 가져옵니다. 신경망을 생성하면 초기 파라미터가 난수 값으로 초기화됩니다. 에이전트가 항상 동일한 파라미터 값으로 초기화되도록 난수 스트림을 고정합니다.

rng(0,"twister");
actorNet = [
    featureInputLayer(prod(obsInfo.Dimension))
    fullyConnectedLayer(10)
    reluLayer
    fullyConnectedLayer(numel(actInfo.Elements))
    softmaxLayer
    ];

심층 신경망 정책 표현을 만드는 방법에 대한 자세한 내용은 Create Actors, Critics, and Policy Objects 항목을 참조하십시오.

dlnetwork로 변환하고 가중치 개수를 표시합니다.

actorNet = dlnetwork(actorNet);
summary(actorNet)

   Initialized: true

   Number of learnables: 72

   Inputs:
      1   'input'   4 features

지정된 심층 신경망과 환경 사양 객체를 사용하여 액터 표현을 만듭니다. 자세한 내용은 rlDiscreteCategoricalActor 항목을 참조하십시오.

actor = rlDiscreteCategoricalActor(actorNet,obsInfo,actInfo);

가능한 행동의 확률 분포를 임의 관측값의 함수로 반환하려면 현재 신경망 가중치가 주어진 경우 evaluate를 사용합니다.

prb = evaluate(actor,{rand(obsInfo.Dimension)});
prb{1}

ans = 2×1 single column vector

    0.7229
    0.2771

액터를 사용하여 에이전트를 만듭니다. 자세한 내용은 rlPGAgent 항목을 참조하십시오.

agent = rlPGAgent(actor);

임의의 관측값 입력값을 사용하여 에이전트를 확인합니다.

getAction(agent,{rand(obsInfo.Dimension)})

ans = 1×1 cell array
    {[-10]}

액터에 대한 훈련 옵션을 지정합니다. 또는 rlPGAgentOptions 객체와 rlOptimizerOptions 객체를 사용할 수 있습니다.

이 훈련의 경우 다음이 적용됩니다.

액터 학습률을 5e-3으로 지정합니다. 학습률이 높으면 대대적인 업데이트가 야기되어 발산이 발생할 수 있으며, 값이 낮으면 최적점에 도달하기까지 많은 업데이트가 필요할 수 있습니다.
기울기 임계값을 1로 지정하여 기울기를 자릅니다. 기울기를 자르면 훈련 안정성을 높일 수 있습니다.

agent.AgentOptions.ActorOptimizerOptions = ...
    rlOptimizerOptions(LearnRate=5e-3, ...
    GradientThreshold=1);

에이전트 훈련시키기

에이전트를 훈련시키려면 먼저 훈련 옵션을 지정하십시오. 이 예제에서는 다음 옵션을 사용합니다.

최대 1000개의 에피소드에 대해 각 훈련 에피소드를 실행하며, 각 에피소드마다 최대 500개의 시간 스텝이 지속됩니다.
강화 학습 훈련 모니터 대화 상자에 훈련 진행 상황을 표시하고(Plots 옵션 설정) 명령줄 표시를 비활성화합니다(Verbose 옵션을 false로 설정).
훈련 에피소드 20개마다 그리디 정책 성능을 평가하고, 10회 시뮬레이션의 누적 보상에 대한 평균값을 계산합니다.
평가 점수가 500에 도달하면 훈련을 중지합니다. 이 시점에서 에이전트는 똑바로 서 있는 위치에서 카트-폴 시스템의 균형을 유지할 수 있습니다.

훈련 옵션에 대한 자세한 내용은 rlTrainingOptions 항목을 참조하십시오.

% training options
trainOpts = rlTrainingOptions(...
    MaxEpisodes=1000, ...
    MaxStepsPerEpisode=500, ...
    Verbose=false, ...
    Plots="training-progress",...
    StopTrainingCriteria="EvaluationStatistic",...
    StopTrainingValue=500);

% agent evaluator
evl = rlEvaluator(EvaluationFrequency=20, NumEpisodes=10);

재현이 가능하도록 난수 스트림을 고정합니다.

rng(0,"twister");

train 함수를 사용하여 에이전트를 훈련시킵니다. 이 에이전트를 훈련시키는 것은 완료하는 데 수 분이 소요되는 계산 집약적인 절차입니다. 이 예제를 실행하는 동안 시간을 절약하려면 doTraining을 false로 설정하여 사전 훈련된 에이전트를 불러오십시오. 에이전트를 직접 훈련시키려면 doTraining을 true로 설정하십시오.

doTraining = false;
if doTraining
    % Train the agent.
    trainingStats = train(agent,env,trainOpts,Evaluator=evl);
else
    % Load the pretrained agent for the example.
    load("MATLABCartpolePG.mat","agent");
end

훈련 스냅샷이 아래에 나와 있습니다. 훈련 과정에서 임의성으로 인해 서로 다른 결과가 나올 수 있습니다.

PG 에이전트 시뮬레이션하기

재현이 가능하도록 난수 스트림을 고정합니다.

rng(0,"twister");

plot 함수를 사용하여 카트-폴 시스템을 시각화할 수 있습니다.

plot(env)

시뮬레이션에 대해 결정적 정책을 사용합니다.

agent.UseExplorationPolicy = false;

훈련된 에이전트의 성능을 검증하려면 카트-폴 환경 내에서 에이전트를 시뮬레이션하십시오. 에이전트 시뮬레이션에 대한 자세한 내용은 rlSimulationOptions 항목과 sim 항목을 참조하십시오.

simOptions = rlSimulationOptions(MaxSteps=500);
experience = sim(env,agent,simOptions);

Figure Cart Pole Visualizer contains an axes object. The axes object contains 6 objects of type line, polygon.

에이전트가 카트-폴 시스템의 균형을 유지할 수 있습니다. 시뮬레이션 중에 얻은 총 보상을 표시합니다.

totalReward = sum(experience.Reward)

totalReward = 
500

previousRngState에 저장된 정보를 사용하여 난수 스트림을 복원합니다.

rng(previousRngState);