Main Content

이 번역 페이지는 최신 내용을 담고 있지 않습니다. 최신 내용을 영문으로 보려면 여기를 클릭하십시오.

sequenceInputLayer

시퀀스 입력 계층

설명

시퀀스 입력 계층은 신경망에 시퀀스 데이터를 입력합니다.

생성

설명

layer = sequenceInputLayer(inputSize)는 시퀀스 입력 계층을 만들고 InputSize 속성을 설정합니다.

예제

layer = sequenceInputLayer(inputSize,Name,Value)는 이름-값 쌍을 사용하여 선택적으로 MinLength, Normalization, Mean, Name 속성을 설정합니다. 여러 개의 이름-값 쌍을 지정할 수 있습니다. 각 속성 이름을 작은따옴표로 묶습니다.

속성

모두 확장

시퀀스 입력

입력값의 크기로, 양의 정수 또는 양의 정수로 구성된 벡터로 지정됩니다.

  • 벡터 시퀀스 입력값에 대해, InputSize는 특징 개수에 대응되는 스칼라입니다.

  • 1차원 영상 시퀀스 입력값에 대해, InputSize는 요소를 2개 가진 벡터 [h c]입니다. 여기서 h는 영상 높이이고, c는 영상의 채널 개수입니다.

  • 2차원 영상 시퀀스 입력값에 대해, InputSize는 요소를 3개 가진 벡터 [h w c]입니다. 여기서 h는 영상 높이이고, w는 영상 너비이고, c는 영상의 채널 개수입니다.

  • 3차원 영상 시퀀스 입력값에 대해, InputSize는 요소를 4개 가진 벡터 [h w d c]입니다. 여기서 h는 영상 높이이고, w는 영상 너비이고, d는 영상 깊이이고, c는 영상의 채널 개수입니다.

입력 데이터의 최소 시퀀스 길이를 지정하려면 MinLength 속성을 사용하십시오.

데이터형: single | double | int8 | int16 | int32 | int64 | uint8 | uint16 | uint32 | uint64

입력 데이터의 최소 시퀀스 길이로, 양의 정수로 지정됩니다. 신경망으로 훈련시키거나 예측할 때, 입력 데이터가 MinLength 시간 스텝보다 적으면 오류가 발생합니다.

시간 차원에서 데이터를 다운샘플링하는 신경망을 만들 때, 신경망에서 훈련 데이터와 예측을 위한 모든 데이터를 지원해야 합니다. 일부 딥러닝 계층은 최소 시퀀스 길이를 갖는 입력이 필요합니다. 예를 들어, 1차원 컨벌루션 계층에는 적어도 필터 크기만큼의 시간 스텝을 갖는 입력값이 필요합니다.

시퀀스 데이터의 시계열이 신경망을 통해 전파됨에 따라 시퀀스 길이가 달라질 수 있습니다. 예를 들어, 1차원 컨벌루션과 같은 다운샘플링 연산은 입력값보다 적은 시간 스텝을 갖는 데이터를 출력할 수 있습니다. 이는 데이터가 계층에 필요한 최소 시퀀스 길이보다 더 짧은 길이를 가지므로 다운샘플링 연산으로 인해 나중에 신경망 계층에 오류가 발생할 수 있음을 의미합니다.

신경망을 훈련시키거나 조합할 때, 길이가 1인 시퀀스가 신경망을 통해 전파될 수 있는지 자동으로 검사됩니다. 일부 신경망은 길이가 1인 시퀀스를 지원하지 않을 수 있지만, 더 긴 길이의 시퀀스는 성공적으로 전파할 수 있습니다. 신경망이 훈련 데이터 및 예상되는 예측 데이터를 전파할 수 있는지 검사하려면 MinLength 속성에 데이터의 최소 길이 및 예측 데이터의 예상되는 최소 길이보다 작거나 같은 값을 설정하십시오.

컨벌루션과 계층 풀링이 데이터의 크기를 변경하지 않도록 하려면 계층의 Padding 옵션을 "same" 또는 "causal"로 설정하십시오.

데이터형: single | double | int8 | int16 | int32 | int64 | uint8 | uint16 | uint32 | uint64

데이터가 입력 계층을 통과하여 순방향으로 전파될 때마다 적용할 데이터 정규화로, 다음 중 하나로 지정됩니다.

  • 'zerocenter'Mean으로 지정된 평균값을 뺍니다.

  • 'zscore'Mean으로 지정된 평균값을 빼고 StandardDeviation으로 나눕니다.

  • 'rescale-symmetric'Min으로 지정된 최솟값과 Max로 지정된 최댓값을 사용하여 입력값이 [-1, 1] 범위 내에 오도록 다시 스케일링합니다.

  • 'rescale-zero-one'Min으로 지정된 최솟값과 Max로 지정된 최댓값을 사용하여 입력값이 [0, 1] 범위 내에 오도록 다시 스케일링합니다.

  • 'none' — 입력 데이터를 정규화하지 않습니다.

  • 함수 핸들 — 지정된 함수를 사용하여 데이터를 정규화합니다. 함수는 Y = func(X) 형식이 되어야 합니다. 여기서 X는 입력 데이터이고 출력값 Y는 정규화된 데이터입니다.

소프트웨어는 기본적으로 trainNetwork 함수를 사용할 때 자동으로 정규화 통계량을 계산합니다. 훈련 중에 시간을 절약하려면 정규화에 필요한 통계량을 지정하고 trainingOptionsResetInputNormalization0(fasle)으로 설정하십시오.

소프트웨어는 채우기 값을 포함하여 모든 입력 요소에 정규화를 적용합니다.

데이터형: char | string | function_handle

정규화 차원으로, 다음 중 하나로 지정됩니다.

  • 'auto' – 훈련 옵션이 false이고 정규화 통계량 중 하나(Mean, StandardDeviation, Min 또는 Max)를 지정한 경우, 통계량과 일치하는 차원에 대해 정규화합니다. 그렇지 않은 경우, 훈련 시점에 통계량을 다시 계산하고 채널별 정규화를 적용합니다.

  • 'channel' – 채널별 정규화.

  • 'element' – 요소별 정규화.

  • 'all' – 스칼라 통계량을 사용하여 모든 값을 정규화합니다.

데이터형: char | string

중심 0 및 z-점수 정규화에서의 평균값으로, 숫자형 배열 또는 빈 값으로 지정됩니다.

  • 벡터 시퀀스 입력값에 대해, Mean은 채널당 평균으로 구성된 InputSize×1 벡터, 숫자형 스칼라 또는 []이어야 합니다.

  • 2차원 영상 시퀀스 입력값에 대해, MeanInputSize와 크기가 같은 숫자형 배열, 채널당 평균으로 구성된 1×1×InputSize(3) 배열, 숫자형 스칼라 또는 []이어야 합니다.

  • 3차원 영상 시퀀스 입력값에 대해, MeanInputSize와 크기가 같은 숫자형 배열, 채널당 평균으로 구성된 1×1×1×InputSize(4) 배열, 숫자형 스칼라 또는 []이어야 합니다.

Mean 속성을 지정한 경우 Normalization'zerocenter' 또는 'zscore'여야 합니다. Mean[]인 경우 trainNetwork 함수는 평균값을 계산하고 채우기 값을 무시합니다. 사용자 지정 훈련 루프를 사용하여 dlnetwork 객체를 훈련시키려면, 또는 assembleNetwork 함수를 사용하여 훈련 없이 신경망을 조합하려면 Mean 속성을 숫자형 스칼라 또는 숫자형 배열로 설정해야 합니다.

데이터형: single | double | int8 | int16 | int32 | int64 | uint8 | uint16 | uint32 | uint64

z-점수 정규화에 사용되는 표준편차로, 숫자형 배열, 숫자형 스칼라 또는 빈 값으로 지정됩니다.

  • 벡터 시퀀스 입력값에 대해, StandardDeviation은 채널당 표준편차로 구성된 InputSize×1 벡터, 숫자형 스칼라 또는 []이어야 합니다.

  • 2차원 영상 시퀀스 입력값에 대해, StandardDeviationInputSize와 크기가 같은 숫자형 배열, 채널당 표준편차로 구성된 1×1×InputSize(3) 배열, 숫자형 스칼라 또는 []이어야 합니다.

  • 3차원 영상 시퀀스 입력값에 대해, StandardDeviationInputSize와 크기가 같은 숫자형 배열, 채널당 표준편차로 구성된 1×1×1×InputSize(4) 배열 또는 숫자형 스칼라여야 합니다.

StandardDeviation 속성을 지정한 경우 Normalization'zscore'여야 합니다. StandardDeviation[]인 경우 trainNetwork 함수는 평균값을 계산하고 채우기 값을 무시합니다. 사용자 지정 훈련 루프를 사용하여 dlnetwork 객체를 훈련시키려면, 또는 assembleNetwork 함수를 사용하여 훈련 없이 신경망을 조합하려면 StandardDeviation 속성을 숫자형 스칼라 또는 숫자형 배열로 설정해야 합니다.

데이터형: single | double | int8 | int16 | int32 | int64 | uint8 | uint16 | uint32 | uint64

다시 스케일링하기 위한 최솟값으로, 숫자형 배열 또는 빈 값으로 지정됩니다.

  • 벡터 시퀀스 입력값에 대해, Min은 채널당 평균으로 구성된 InputSize×1 벡터 또는 숫자형 스칼라여야 합니다.

  • 2차원 영상 시퀀스 입력값에 대해, MinInputSize와 크기가 같은 숫자형 배열, 채널당 국소 최솟값으로 구성된 1×1×InputSize(3) 배열 또는 숫자형 스칼라여야 합니다.

  • 3차원 영상 시퀀스 입력값에 대해, MinInputSize와 크기가 같은 숫자형 배열, 채널당 국소 최솟값으로 구성된 1×1×1×InputSize(4) 배열 또는 숫자형 스칼라여야 합니다.

Min 속성을 지정한 경우 Normalization'rescale-symmetric' 또는 'rescale-zero-one'이어야 합니다. Min[]인 경우 trainNetwork 함수는 국소 최솟값을 계산하고 채우기 값을 무시합니다. 사용자 지정 훈련 루프를 사용하여 dlnetwork 객체를 훈련시키려면, 또는 assembleNetwork 함수를 사용하여 훈련 없이 신경망을 조합하려면 Min 속성을 숫자형 스칼라 또는 숫자형 배열로 설정해야 합니다.

데이터형: single | double | int8 | int16 | int32 | int64 | uint8 | uint16 | uint32 | uint64

다시 스케일링하기 위한 최댓값으로, 숫자형 배열 또는 빈 값으로 지정됩니다.

  • 벡터 시퀀스 입력값에 대해, Max는 채널당 평균으로 구성된 InputSize×1 벡터 또는 숫자형 스칼라여야 합니다.

  • 2차원 영상 시퀀스 입력값에 대해, MaxInputSize와 크기가 같은 숫자형 배열, 채널당 국소 최댓값으로 구성된 1×1×InputSize(3) 배열, 숫자형 스칼라 또는 []이어야 합니다.

  • 3차원 영상 시퀀스 입력값에 대해, MaxInputSize와 크기가 같은 숫자형 배열, 채널당 국소 최댓값으로 구성된 1×1×1×InputSize(4) 배열, 숫자형 스칼라 또는 []이어야 합니다.

Max 속성을 지정한 경우 Normalization'rescale-symmetric' 또는 'rescale-zero-one'이어야 합니다. Max[]인 경우 trainNetwork 함수는 국소 최댓값을 계산하고 채우기 값을 무시합니다. 사용자 지정 훈련 루프를 사용하여 dlnetwork 객체를 훈련시키려면, 또는 assembleNetwork 함수를 사용하여 훈련 없이 신경망을 조합하려면 Max 속성을 숫자형 스칼라 또는 숫자형 배열로 설정해야 합니다.

데이터형: single | double | int8 | int16 | int32 | int64 | uint8 | uint16 | uint32 | uint64

읽기 전용 속성입니다.

입력 데이터를 실수부와 허수부로 분할하는 플래그로, 다음 값 중 하나로 지정됩니다.

  • 0(false) – 입력 데이터를 분할하지 않습니다.

  • 1(true) – 데이터를 실수부와 허수부로 분할합니다.

SplitComplexInputs1인 경우 계층은 입력 데이터보다 두 배 많은 수의 채널을 출력합니다. 예를 들어, 입력 데이터가 numChannels개의 채널을 갖는 복소수 값이면 계층은 2*numChannels개의 채널을 갖는 데이터를 출력합니다. 이때 채널 1부터 numChannels은 입력 데이터의 실수부를 포함하고 numChannels+1부터 2*numChannels은 입력 데이터의 허수부를 포함합니다. 입력 데이터가 실수인 경우 채널 numChannels+1부터 2*numChannels이 모두 0입니다.

복소수 값 데이터를 신경망에 입력하려면 입력 계층의 SplitComplexInputs 옵션이 1이어야 합니다.

복소수 값 데이터를 갖는 신경망을 훈련시키는 방법을 보여주는 예제는 Train Network with Complex-Valued Data 항목을 참조하십시오.

계층

계층 이름으로, 문자형 벡터 또는 string형 스칼라로 지정됩니다. Layer 배열 입력값에 대해 trainNetwork, assembleNetwork, layerGraph, dlnetwork 함수는 이름이 ''인 계층에 자동으로 이름을 할당합니다.

데이터형: char | string

읽기 전용 속성입니다.

계층의 입력값 개수. 이 계층에는 입력값이 없습니다.

데이터형: double

읽기 전용 속성입니다.

계층의 입력값 이름. 이 계층에는 입력값이 없습니다.

데이터형: cell

읽기 전용 속성입니다.

계층의 출력값 개수. 이 계층은 단일 출력값만 가집니다.

데이터형: double

읽기 전용 속성입니다.

계층의 출력값 이름. 이 계층은 단일 출력값만 가집니다.

데이터형: cell

예제

모두 축소

이름이 'seq1'이고 입력 크기가 12인 시퀀스 입력 계층을 만듭니다.

layer = sequenceInputLayer(12,'Name','seq1')
layer = 
  SequenceInputLayer with properties:

                      Name: 'seq1'
                 InputSize: 12
                 MinLength: 1
        SplitComplexInputs: 0

   Hyperparameters
             Normalization: 'none'
    NormalizationDimension: 'auto'

Layer 배열에 시퀀스 입력 계층을 포함시킵니다.

inputSize = 12;
numHiddenUnits = 100;
numClasses = 9;

layers = [ ...
    sequenceInputLayer(inputSize)
    lstmLayer(numHiddenUnits,'OutputMode','last')
    fullyConnectedLayer(numClasses)
    softmaxLayer
    classificationLayer]
layers = 
  5x1 Layer array with layers:

     1   ''   Sequence Input          Sequence input with 12 dimensions
     2   ''   LSTM                    LSTM with 100 hidden units
     3   ''   Fully Connected         9 fully connected layer
     4   ''   Softmax                 softmax
     5   ''   Classification Output   crossentropyex

이름이 'seq1'이고 224x224 RGB 영상으로 구성된 시퀀스를 위한 시퀀스 입력 계층을 만듭니다.

layer = sequenceInputLayer([224 224 3], 'Name', 'seq1')
layer = 
  SequenceInputLayer with properties:

                      Name: 'seq1'
                 InputSize: [224 224 3]
                 MinLength: 1
        SplitComplexInputs: 0

   Hyperparameters
             Normalization: 'none'
    NormalizationDimension: 'auto'

Sequence-to-label 분류를 위해 딥러닝 LSTM 신경망을 훈련시킵니다.

[1]과 [2]에서 설명한 Japanese Vowels 데이터 세트를 불러옵니다. XTrain은 LPC 켑스트럼 계수에 대응되는 12개의 특징이 다양한 길이의 시퀀스 270개로 구성된 셀형 배열입니다. Y는 레이블 1,2,...,9로 구성된 categorical형 벡터입니다. XTrain의 요소는 각 특징에 대해 하나의 행을 갖는 12개의 행과 각 시간 스텝에 대해 하나의 열을 갖는 가변 개수의 열로 이루어진 행렬입니다.

[XTrain,YTrain] = japaneseVowelsTrainData;

첫 번째 시계열을 플롯으로 시각화합니다. 선은 각각 하나의 특징에 대응됩니다.

figure
plot(XTrain{1}')
title("Training Observation 1")
numFeatures = size(XTrain{1},1);
legend("Feature " + string(1:numFeatures),'Location','northeastoutside')

Figure contains an axes object. The axes object with title Training Observation 1 contains 12 objects of type line. These objects represent Feature 1, Feature 2, Feature 3, Feature 4, Feature 5, Feature 6, Feature 7, Feature 8, Feature 9, Feature 10, Feature 11, Feature 12.

LSTM 신경망 아키텍처를 정의합니다. 입력 크기를 12(입력 데이터의 특징 개수)로 지정합니다. 은닉 유닛 100개를 포함하고 시퀀스의 마지막 요소를 출력하는 LSTM 계층을 지정합니다. 마지막으로, 크기가 9인 완전 연결 계층을 포함하여 9개의 클래스를 지정하고, 이어서 소프트맥스 계층과 분류 계층을 지정합니다.

inputSize = 12;
numHiddenUnits = 100;
numClasses = 9;

layers = [ ...
    sequenceInputLayer(inputSize)
    lstmLayer(numHiddenUnits,'OutputMode','last')
    fullyConnectedLayer(numClasses)
    softmaxLayer
    classificationLayer]
layers = 
  5x1 Layer array with layers:

     1   ''   Sequence Input          Sequence input with 12 dimensions
     2   ''   LSTM                    LSTM with 100 hidden units
     3   ''   Fully Connected         9 fully connected layer
     4   ''   Softmax                 softmax
     5   ''   Classification Output   crossentropyex

훈련 옵션을 지정합니다. 솔버를 'adam'으로 지정하고 'GradientThreshold'를 1로 지정합니다. 미니 배치의 크기를 27로 설정하고 최대 Epoch 횟수를 70으로 설정합니다.

미니 배치는 짧은 시퀀스로 구성된 크기가 작은 배치이므로 훈련에는 CPU가 더 적절합니다. 'ExecutionEnvironment''cpu'로 설정합니다. GPU를 사용할 수 있는 경우 GPU에서 훈련시키려면 'ExecutionEnvironment''auto'(디폴트 값)로 설정하십시오.

maxEpochs = 70;
miniBatchSize = 27;

options = trainingOptions('adam', ...
    'ExecutionEnvironment','cpu', ...
    'MaxEpochs',maxEpochs, ...
    'MiniBatchSize',miniBatchSize, ...
    'GradientThreshold',1, ...
    'Verbose',false, ...
    'Plots','training-progress');

지정된 훈련 옵션으로 LSTM 신경망을 훈련시킵니다.

net = trainNetwork(XTrain,YTrain,layers,options);

{"String":"Figure Training Progress (26-Aug-2022 23:15:38) contains 2 axes objects and another object of type uigridlayout. Axes object 1 contains 11 objects of type patch, text, line. Axes object 2 contains 11 objects of type patch, text, line.","Tex":[],"LaTex":[]}

테스트 세트를 불러오고 시퀀스를 화자별로 분류합니다.

[XTest,YTest] = japaneseVowelsTestData;

테스트 데이터를 분류합니다. 훈련에 사용된 것과 동일하게 미니 배치 크기를 지정합니다.

YPred = classify(net,XTest,'MiniBatchSize',miniBatchSize);

예측의 분류 정확도를 계산합니다.

acc = sum(YPred == YTest)./numel(YTest)
acc = 0.9595

sequence-to-label 분류를 위한 LSTM 신경망을 만들려면 시퀀스 입력 계층, LSTM 계층, 완전 연결 계층, 소프트맥스 계층, 분류 출력 계층을 포함하는 계층 배열을 만듭니다.

시퀀스 입력 계층의 크기를 입력 데이터의 특징 개수로 설정합니다. 완전 연결 계층의 크기를 클래스 개수로 설정합니다. 시퀀스 길이는 지정할 필요가 없습니다.

LSTM 계층의 경우, 은닉 유닛의 개수와 출력 모드 'last'를 지정합니다.

numFeatures = 12;
numHiddenUnits = 100;
numClasses = 9;
layers = [ ...
    sequenceInputLayer(numFeatures)
    lstmLayer(numHiddenUnits,'OutputMode','last')
    fullyConnectedLayer(numClasses)
    softmaxLayer
    classificationLayer];

sequence-to-label 분류를 위한 LSTM 신경망을 훈련시키고 새 데이터를 분류하는 방법을 보여주는 예제는 딥러닝을 사용한 시퀀스 분류 항목을 참조하십시오.

sequence-to-sequence 분류를 위한 LSTM 신경망을 만들려면 sequence-to-label 분류와 동일한 아키텍처를 사용하되 LSTM 계층의 출력 모드를 'sequence'로 설정합니다.

numFeatures = 12;
numHiddenUnits = 100;
numClasses = 9;
layers = [ ...
    sequenceInputLayer(numFeatures)
    lstmLayer(numHiddenUnits,'OutputMode','sequence')
    fullyConnectedLayer(numClasses)
    softmaxLayer
    classificationLayer];

sequence-to-one 회귀를 위한 LSTM 신경망을 만들려면 시퀀스 입력 계층, LSTM 계층, 완전 연결 계층, 회귀 출력 계층을 포함하는 계층 배열을 만듭니다.

시퀀스 입력 계층의 크기를 입력 데이터의 특징 개수로 설정합니다. 완전 연결 계층의 크기를 응답 변수의 개수로 설정합니다. 시퀀스 길이는 지정할 필요가 없습니다.

LSTM 계층의 경우, 은닉 유닛의 개수와 출력 모드 'last'를 지정합니다.

numFeatures = 12;
numHiddenUnits = 125;
numResponses = 1;

layers = [ ...
    sequenceInputLayer(numFeatures)
    lstmLayer(numHiddenUnits,'OutputMode','last')
    fullyConnectedLayer(numResponses)
    regressionLayer];

sequence-to-sequence 회귀를 위한 LSTM 신경망을 만들려면 sequence-to-one 회귀와 동일한 아키텍처를 사용하되 LSTM 계층의 출력 모드를 'sequence'로 설정합니다.

numFeatures = 12;
numHiddenUnits = 125;
numResponses = 1;

layers = [ ...
    sequenceInputLayer(numFeatures)
    lstmLayer(numHiddenUnits,'OutputMode','sequence')
    fullyConnectedLayer(numResponses)
    regressionLayer];

sequence-to-sequence 회귀를 위한 LSTM 신경망을 훈련시키고 새 데이터에 대해 예측하는 방법을 보여주는 예제는 딥러닝을 사용한 sequence-to-sequence 회귀 항목을 참조하십시오.

LSTM 계층 앞에 출력 모드가 'sequence'인 LSTM 계층을 추가로 삽입하여 LSTM 신경망의 심도를 높일 수 있습니다. 과적합을 방지하기 위해 LSTM 계층 뒤에 드롭아웃 계층을 삽입할 수 있습니다.

sequence-to-label 분류 신경망의 경우, 마지막 LSTM 계층의 출력 모드가 'last'가 되어야 합니다.

numFeatures = 12;
numHiddenUnits1 = 125;
numHiddenUnits2 = 100;
numClasses = 9;
layers = [ ...
    sequenceInputLayer(numFeatures)
    lstmLayer(numHiddenUnits1,'OutputMode','sequence')
    dropoutLayer(0.2)
    lstmLayer(numHiddenUnits2,'OutputMode','last')
    dropoutLayer(0.2)
    fullyConnectedLayer(numClasses)
    softmaxLayer
    classificationLayer];

sequence-to-sequence 분류 신경망의 경우, 마지막 LSTM 계층의 출력 모드가 'sequence'가 되어야 합니다.

numFeatures = 12;
numHiddenUnits1 = 125;
numHiddenUnits2 = 100;
numClasses = 9;
layers = [ ...
    sequenceInputLayer(numFeatures)
    lstmLayer(numHiddenUnits1,'OutputMode','sequence')
    dropoutLayer(0.2)
    lstmLayer(numHiddenUnits2,'OutputMode','sequence')
    dropoutLayer(0.2)
    fullyConnectedLayer(numClasses)
    softmaxLayer
    classificationLayer];

비디오나 의료 영상 데이터와 같이 영상으로 구성된 시퀀스를 포함하는 데이터를 위한 딥러닝 신경망을 만듭니다.

  • 신경망에 영상으로 구성된 시퀀스를 입력하기 위해 시퀀스 입력 계층을 사용합니다.

  • 각 시간 스텝에 독립적으로 컨벌루션 연산을 적용하기 위해 먼저 시퀀스 접기 계층을 사용하여 영상으로 구성된 시퀀스를 영상으로 구성된 배열로 변환합니다.

  • 이러한 연산을 수행한 후 시퀀스 구조체를 복원하기 위해 시퀀스 펼치기 계층을 사용하여 영상으로 구성된 배열을 다시 영상 시퀀스로 변환합니다.

  • 영상을 특징 벡터로 변환하기 위해 평탄화 계층을 사용합니다.

그런 다음 입력 벡터 시퀀스를 LSTM 계층과 BiLSTM 계층에 입력할 수 있습니다.

신경망 아키텍처 정의하기

28×28 회색조 영상으로 구성된 시퀀스를 10개 클래스로 분류하는 분류 LSTM 신경망을 만듭니다.

다음과 같은 신경망 아키텍처를 정의합니다.

  • 입력 크기가 [28 28 1]인 시퀀스 입력 계층.

  • 5×5 필터 20개를 갖는 컨벌루션, 배치 정규화 및 ReLU 계층 블록.

  • 마지막 시간 스텝만 출력하는 은닉 유닛 200개를 갖는 LSTM 계층.

  • 크기가 10(클래스 개수)인 완전 연결 계층과 그 뒤에 오는 소프트맥스 계층 및 분류 계층.

각 시간 스텝에 대해 컨벌루션 연산을 독립적으로 수행하려면 컨벌루션 계층 앞에 시퀀스 접기 계층을 포함시키십시오. LSTM 계층에는 벡터 시퀀스 입력값이 필요합니다. 시퀀스 구조체를 복원하고 컨벌루션 계층의 출력값 형태를 특징 벡터로 구성된 시퀀스로 변경하려면 컨벌루션 계층과 LSTM 계층 사이에 시퀀스 펼치기 계층과 평탄화 계층을 삽입하십시오.

inputSize = [28 28 1];
filterSize = 5;
numFilters = 20;
numHiddenUnits = 200;
numClasses = 10;

layers = [ ...
    sequenceInputLayer(inputSize,'Name','input')
    
    sequenceFoldingLayer('Name','fold')
    
    convolution2dLayer(filterSize,numFilters,'Name','conv')
    batchNormalizationLayer('Name','bn')
    reluLayer('Name','relu')
    
    sequenceUnfoldingLayer('Name','unfold')
    flattenLayer('Name','flatten')
    
    lstmLayer(numHiddenUnits,'OutputMode','last','Name','lstm')
    
    fullyConnectedLayer(numClasses, 'Name','fc')
    softmaxLayer('Name','softmax')
    classificationLayer('Name','classification')];

계층을 계층 그래프로 변환하고, 시퀀스 접기 계층의 miniBatchSize 출력값을 시퀀스 펼치기 계층의 대응되는 입력값에 연결합니다.

lgraph = layerGraph(layers);
lgraph = connectLayers(lgraph,'fold/miniBatchSize','unfold/miniBatchSize');

plot 함수를 사용하여 최종 신경망 아키텍처를 확인합니다.

figure
plot(lgraph)

Figure contains an axes object. The axes object contains an object of type graphplot.

참고 문헌

[1] M. Kudo, J. Toyama, and M. Shimbo. "Multidimensional Curve Classification Using Passing-Through Regions." Pattern Recognition Letters. Vol. 20, No. 11–13, pages 1103–1111.

[2] UCI Machine Learning Repository: Japanese Vowels Dataset. https://archive.ics.uci.edu/ml/datasets/Japanese+Vowels

확장 기능

버전 내역

R2017b에 개발됨

모두 확장