딥러닝을 사용한 시계열 전망

이 예제에서는 장단기 기억(LSTM) 신경망을 사용하여 시계열 데이터를 전망하는 방법을 보여줍니다.

LSTM 신경망은 루프를 사용하여 시간 스텝을 순회하고 순환 신경망(RNN) 상태를 업데이트하여 입력 데이터를 처리하는 RNN입니다. RNN 상태에는 모든 이전 시간 스텝에서 기억한 정보가 포함됩니다. LSTM 신경망을 사용하면 이전 시간 스텝을 입력값으로 사용해서 시계열 또는 시퀀스의 후속 값을 전망할 수 있습니다. LSTM 신경망에 시계열 전망을 훈련시키려면 시퀀스 출력이 있는 회귀 LSTM 신경망을 훈련시키며, 이때 응답 변수(목표값)는 시간 스텝 하나만큼 값이 이동된 훈련 시퀀스입니다. 즉, LSTM 신경망은 입력 시퀀스의 시간 스텝마다 다음 시간 스텝의 값을 예측하도록 학습합니다.

전망 방법에는 개루프 전망과 폐루프 전망의 두 가지 방법이 있습니다.

개루프 전망 — 입력 데이터만 사용하여 시퀀스에서 다음 시간 스텝을 예측합니다. 후속 시간 스텝을 예측할 때는 데이터 소스에서 실제 값을 수집하여 입력값으로 사용합니다. 예를 들어, 시퀀스의 1부터 $t - 1$ 까지의 시간 스텝에서 수집한 데이터를 사용하여 시간 스텝 $t$ 에서의 값을 예측한다고 해보겠습니다. 시간 스텝 $t + 1$ 에서 예측을 수행하려면 시간 스텝 $t$ 에서의 실제 값이 기록될 때까지 기다렸다가 이 값을 입력값으로 사용하여 다음 예측을 수행합니다. RNN에 실제 값을 전달하여 다음 예측을 수행할 수 있다면 개루프 전망을 사용하십시오.
폐루프 전망 — 이전 예측을 입력값으로 사용하여 시퀀스의 후속 시간 스텝을 예측합니다. 이 경우 모델은 예측을 수행하는 데 실제 값이 필요하지 않습니다. 예를 들어, 시퀀스의 1부터 $t - 1$ 까지의 시간 스텝에서 수집된 데이터만 사용해서 $t$ 부터 $t + k$ 까지의 시간 스텝의 값을 예측한다고 해보겠습니다. 시간 스텝 $i$ 에 대해 예측을 수행하려면 시간 스텝 $i - 1$ 에서 예측된 값을 입력값으로 사용합니다. 여러 개의 후속 시간 스텝을 전망해야 하거나 다음 예측을 수행하기 전에 RNN에 전달할 수 있는 실제 값이 없다면 폐루프 전망을 사용합니다.

다음 그림은 폐루프 예측을 사용하여 값을 전망한 시퀀스 예를 보여줍니다.

이 예제는 파형 데이터 세트를 사용합니다. 이 데이터 세트는 3개 채널로 이루어진 다양한 길이로 생성된 2000개의 합성 파형 데이터를 포함합니다. 이 예제에서는 폐루프 전망과 개루프 전망을 모두 사용하여 이전 시간 스텝에서 주어진 값으로 파형의 미래 값을 전망하는 LSTM 신경망을 훈련시킵니다.

데이터 불러오기

WaveformData.mat에서 예제 데이터를 불러옵니다. 이 데이터는 시퀀스로 구성된 numObservations×1 셀형 배열이며, 여기서 numObservations는 시퀀스 개수입니다. 각 시퀀스는 numTimeSteps×-numChannels 숫자형 배열이며, 여기서 numTimeSteps는 시퀀스의 시간 스텝 개수이고 numChannels는 시퀀스의 채널 개수입니다.

load WaveformData

처음 몇 개 시퀀스의 크기를 확인합니다.

data(1:4)

ans=4×1 cell array
    {103×3 double}
    {136×3 double}
    {140×3 double}
    {124×3 double}

채널 개수를 확인합니다. LSTM 신경망을 훈련시키려면 각 시퀀스의 채널 개수가 같아야 합니다.

numChannels = size(data{1},2)

numChannels = 3

처음 몇 개의 시퀀스를 플롯으로 시각화합니다.

figure
tiledlayout(2,2)
for i = 1:4
    nexttile
    stackedplot(data{i})

    xlabel("Time Step")
end

Figure contains objects of type stackedplot.

데이터를 훈련 세트와 테스트 세트로 분할합니다. 관측값의 90%는 훈련용으로 사용하고 나머지는 테스트용으로 사용합니다.

numObservations = numel(data);
idxTrain = 1:floor(0.9*numObservations);
idxTest = floor(0.9*numObservations)+1:numObservations;
dataTrain = data(idxTrain);
dataTest = data(idxTest);

훈련을 위해 데이터 준비하기

시퀀스의 미래 시간 스텝 값을 전망하려면 목표값을 시간 스텝 하나만큼 값이 이동된 훈련 시퀀스로 지정하십시오. 훈련 시퀀스의 마지막 시간 스텝은 포함하지 마십시오. 즉, LSTM 신경망은 입력 시퀀스의 시간 스텝마다 다음 시간 스텝의 값을 예측하도록 학습합니다. 예측 변수는 최종 시간 스텝이 없는 훈련 시퀀스입니다.

numObservationsTrain = numel(dataTrain);
XTrain = cell(numObservationsTrain,1);
TTrain = cell(numObservationsTrain,1);
for n = 1:numObservationsTrain
    X = dataTrain{n};
    XTrain{n} = X(1:end-1,:);
    TTrain{n} = X(2:end,:);
end

더 적합한 피팅을 위해, 그리고 훈련의 발산을 방지하기 위해 채널의 평균이 0, 분산이 1이 되도록 예측 변수와 목표값을 정규화합니다. 예측을 수행할 때는 훈련 데이터와 동일한 통계량을 사용하여 테스트 데이터도 정규화해야 합니다.

시퀀스에 대해 채널당 평균값과 표준편차 값을 계산합니다. 훈련 데이터에 대해 평균과 표준편차를 쉽게 계산하려면 cell2mat 함수를 사용하여 결합된 시퀀스를 포함하는 숫자형 배열을 만드십시오.

muX = mean(cell2mat(XTrain));
sigmaX = std(cell2mat(XTrain),0);

muT = mean(cell2mat(TTrain));
sigmaT = std(cell2mat(TTrain),0);

계산된 평균값과 표준편차 값을 사용하여 시퀀스를 정규화합니다.

for n = 1:numel(XTrain)
    XTrain{n} = (XTrain{n} - muX) ./ sigmaX;
    TTrain{n} = (TTrain{n} - muT) ./ sigmaT;
end

LSTM 신경망 아키텍처 정의하기

LSTM 회귀 신경망을 만듭니다.

입력 데이터의 채널 개수와 일치하는 입력 크기를 가진 시퀀스 입력 계층을 사용합니다.
128개의 은닉 유닛을 가진 LSTM 계층을 사용합니다. 은닉 유닛의 개수는 계층에서 학습한 정보의 양을 결정합니다. 더 많은 은닉 유닛을 사용하면 더 정확한 결과를 얻을 수 있지만 훈련 데이터에 과적합을 초래할 가능성이 더 커집니다.
입력 데이터와 같은 채널 개수를 가진 시퀀스를 출력하려면 입력 데이터의 채널 개수와 일치하는 출력 크기를 가진 완전 연결 계층을 포함하십시오.

layers = [
    sequenceInputLayer(numChannels)
    lstmLayer(128)
    fullyConnectedLayer(numChannels)];

훈련 옵션 지정하기

훈련 옵션을 지정합니다.

Adam 최적화를 사용하여 훈련시킵니다.
훈련을 Epoch 200회 수행합니다. 크기가 큰 데이터 세트의 경우에는 양호한 피팅을 위해 이렇게 많은 Epoch 횟수만큼 훈련시키지 않아도 될 수 있습니다.
각 미니 배치에서 시퀀스들이 같은 길이를 갖도록 왼쪽을 채웁니다. 왼쪽을 채우면 RNN이 시퀀스의 끝에서 채우기 값을 예측하는 것을 방지합니다.
매 Epoch마다 데이터를 섞습니다.
훈련 진행 상황을 플롯으로 표시합니다.
상세 출력값을 비활성화합니다.

options = trainingOptions("adam", ...
    MaxEpochs=200, ...
    SequencePaddingDirection="left", ...
    Shuffle="every-epoch", ...
    Plots="training-progress", ...
    Verbose=false);

순환 신경망 훈련시키기

trainnet 함수를 사용하여 LSTM 신경망을 훈련시킵니다. 회귀의 경우 평균제곱오차 손실을 사용합니다. 기본적으로 trainnet 함수는 GPU를 사용할 수 있으면 GPU를 사용합니다. GPU를 사용하려면 Parallel Computing Toolbox™ 라이선스와 지원되는 GPU 장치가 필요합니다. 지원되는 장치에 대한 자세한 내용은 GPU 연산 요구 사항 (Parallel Computing Toolbox) 항목을 참조하십시오. GPU를 사용할 수 없는 경우, 함수는 CPU를 사용합니다. 실행 환경을 지정하려면 ExecutionEnvironment 훈련 옵션을 사용하십시오.

net = trainnet(XTrain,TTrain,layers,"mse",options);

순환 신경망 테스트하기

훈련 데이터와 동일한 단계를 사용하여 예측을 위한 테스트 데이터를 준비합니다.

훈련 데이터에서 계산된 통계량을 사용하여 테스트 데이터를 정규화합니다. 목표값을 시간 스텝 하나만큼 값이 이동된 테스트 시퀀스로 지정하고 예측 변수를 최종 시간 스텝이 없는 테스트 시퀀스로 지정합니다.

numObservationsTest = numel(dataTest);
XTest = cell(numObservationsTest,1);
TTest = cell(numObservationsTest,1);
for n = 1:numObservationsTest
    X = dataTest{n};
    XTest{n} = (X(1:end-1,:) - muX) ./ sigmaX;
    TTest{n} = (X(2:end,:) - muT) ./ sigmaT;
end

minibatchpredict 함수를 사용하여 예측을 수행합니다. 기본적으로 minibatchpredict 함수는 GPU를 사용할 수 있으면 GPU를 사용합니다. 훈련에 사용된 것과 동일한 채우기 옵션을 사용하여 시퀀스를 채웁니다. 다양한 길이의 시퀀스를 포함하는 sequence-to-sequence 작업의 경우 UniformOutput 옵션을 false로 설정하여 예측값을 셀형 배열로 반환합니다.

YTest = minibatchpredict(net,XTest, ...
    SequencePaddingDirection="left", ...
    UniformOutput=false);

테스트 시퀀스마다 예측값과 목표값 사이의 RMSE(RMS 오차)를 계산합니다. 참조를 위한 목표값 시퀀스의 길이를 사용하여 예측된 시퀀스의 채우기 값을 무시합니다.

for n = 1:numObservationsTest
    T = TTest{n};

    sequenceLength = size(T,1);    

    Y = YTest{n}(end-sequenceLength+1:end,:);

    err(n) = rmse(Y,T,"all");
end

오차를 히스토그램으로 시각화합니다. 값이 낮을수록 높은 정확도를 나타냅니다.

figure
histogram(err)
xlabel("RMSE")
ylabel("Frequency")

Figure contains an axes object. The axes object with xlabel RMSE, ylabel Frequency contains an object of type histogram.

모든 테스트 관측값에 대해 평균 RMSE를 계산합니다.

mean(err,"all")

ans = single
    0.5099

미래의 시간 스텝 전망하기

입력 시계열 또는 시퀀스에 대해 미래의 여러 시간 스텝의 값을 전망하려면 predict 함수를 사용하여 한 번에 하나의 시간 스텝을 예측한 다음 각 예측에 대해 RNN 상태를 업데이트하십시오. 각 예측에서 직전의 예측을 함수의 입력값으로 사용합니다.

테스트 시퀀스 하나를 플롯으로 시각화합니다.

idx = 2;
X = XTest{idx};
T = TTest{idx};

figure
stackedplot(X,DisplayLabels="Channel " + (1:numChannels))
xlabel("Time Step")
title("Test Observation " + idx)

Figure contains an object of type stackedplot. The chart of type stackedplot has title Test Observation 2.

개루프 전망

개루프 전망은 입력 데이터만 사용하여 시퀀스에서 다음 시간 스텝을 예측합니다. 후속 시간 스텝을 예측할 때는 데이터 소스에서 실제 값을 수집하여 입력값으로 사용합니다. 예를 들어, 시퀀스의 1부터 $t - 1$ 까지의 시간 스텝에서 수집한 데이터를 사용하여 시간 스텝 $t$ 에서의 값을 예측한다고 해보겠습니다. 시간 스텝 $t + 1$ 에서 예측을 수행하려면 시간 스텝 $t$ 에서의 실제 값이 기록될 때까지 기다렸다가 이 값을 입력값으로 사용하여 다음 예측을 수행합니다. RNN에 실제 값을 전달하여 다음 예측을 수행할 수 있다면 개루프 전망을 사용하십시오.

resetState 함수로 먼저 상태를 재설정하여 RNN 상태를 초기화한 다음 입력 데이터의 처음 몇 개의 시간 스텝을 사용하여 초기 예측을 수행합니다. 입력 데이터의 처음 75개의 시간 스텝을 사용하여 RNN 상태를 업데이트합니다.

net = resetState(net);
offset = 75;
[Z,state] = predict(net,X(1:offset,:));
net.State = state;

예측을 더 전망하려면 시간 스텝을 루프를 사용해 순회하고 predict 함수를 사용하여 예측을 수행합니다. 각 예측 후에 RNN 상태를 업데이트합니다. 루프를 사용해 입력 데이터의 시간 스텝을 순회하여 테스트 관측값의 나머지 시간 스텝에 대해 값을 전망하고 이 값들을 RNN의 입력값으로 사용합니다. 초기 예측의 마지막 시간 스텝은 첫 번째로 전망된 시간 스텝입니다.

numTimeSteps = size(X,1);
numPredictionTimeSteps = numTimeSteps - offset;
Y = zeros(numPredictionTimeSteps,numChannels);
Y(1,:) = Z(end,1);

for t = 1:numPredictionTimeSteps-1
    Xt = X(offset+t,:);
    [Y(t+1,:),state] = predict(net,Xt);
    net.State = state;
end

예측값과 입력값을 비교합니다.

figure
t = tiledlayout(numChannels,1);
title(t,"Open Loop Forecasting")

for i = 1:numChannels
    nexttile
    plot(X(:,i))
    hold on
    plot(offset:numTimeSteps,[X(offset,i) Y(:,i)'],"--")
    ylabel("Channel " + i)
end

xlabel("Time Step")
nexttile(1)
legend(["Input" "Forecasted"])

Figure contains 3 axes objects. Axes object 1 with ylabel Channel 1 contains 2 objects of type line. These objects represent Input, Forecasted. Axes object 2 with ylabel Channel 2 contains 2 objects of type line. Axes object 3 with xlabel Time Step, ylabel Channel 3 contains 2 objects of type line.

폐루프 전망

폐루프 전망은 이전 예측을 입력값으로 사용하여 시퀀스의 후속 시간 스텝을 예측합니다. 이 경우 모델은 예측을 수행하는 데 실제 값이 필요하지 않습니다. 예를 들어, 시퀀스의 1부터 $t - 1$ 까지의 시간 스텝에서 수집된 데이터만 사용해서 $t$ 부터 $t + k$ 까지의 시간 스텝의 값을 예측한다고 해보겠습니다. 시간 스텝 $i$ 에 대해 예측을 수행하려면 시간 스텝 $i - 1$ 에서 예측된 값을 입력값으로 사용합니다. 여러 개의 후속 시간 스텝을 전망해야 하거나 다음 예측을 수행하기 전에 RNN에 전달할 수 있는 실제 값이 없다면 폐루프 전망을 사용합니다.

resetState 함수로 먼저 상태를 재설정하여 RNN 상태를 초기화한 다음 입력 데이터의 처음 몇 개의 시간 스텝을 사용하여 초기 예측 Z를 수행합니다. 입력 데이터의 모든 시간 스텝을 사용하여 RNN 상태를 업데이트합니다.

net = resetState(net);
offset = size(X,1);
[Z,state] = predict(net,X(1:offset,:));
net.State = state;

예측을 더 전망하려면 시간 스텝을 루프를 사용해 순회하고 predict 함수를 사용하여 예측을 수행합니다. 각 예측 후에 RNN 상태를 업데이트합니다. 이전에 예측된 값을 RNN으로 반복적으로 전달하여 다음 200개의 시간 스텝을 전망합니다. RNN이 더 예측을 수행하기 위해 입력 데이터가 필요하지 않으므로 전망할 시간 스텝의 개수를 원하는 대로 지정할 수 있습니다. 초기 예측의 마지막 시간 스텝은 첫 번째로 전망된 시간 스텝입니다.

numPredictionTimeSteps = 200;
Y = zeros(numPredictionTimeSteps,numChannels);
Y(1,:) = Z(end,:);

for t = 2:numPredictionTimeSteps
    [Y(t,:),state] = predict(net,Y(t-1,:));
    net.State = state;
end

전망한 값을 플롯으로 시각화합니다.

numTimeSteps = offset + numPredictionTimeSteps;

figure
t = tiledlayout(numChannels,1);
title(t,"Closed Loop Forecasting")

for i = 1:numChannels
    nexttile
    plot(X(1:offset,i))
    hold on
    plot(offset:numTimeSteps,[X(offset,i) Y(:,i)'],"--")
    ylabel("Channel " + i)
end

xlabel("Time Step")
nexttile(1)
legend(["Input" "Forecasted"])