Main Content

이 번역 페이지는 최신 내용을 담고 있지 않습니다. 최신 내용을 영문으로 보려면 여기를 클릭하십시오.

rmoutliers

데이터에서 이상값을 감지하여 제거

설명

예제

B = rmoutliers(A)A의 데이터에서 이상값을 감지하여 제거합니다.

  • A가 행 또는 열 벡터인 경우 rmoutliers는 이상값을 감지하여 제거합니다.

  • A가 다차원 배열인 경우 rmoutliers는 크기가 1이 아닌 A의 첫 번째 차원을 따라 연산을 수행합니다.

  • A가 행렬인 경우 rmoutliersA의 각 열에서 이상값을 개별적으로 감지하고 그 행 전체를 제거합니다.

  • A가 테이블 또는 타임테이블인 경우 rmoutliersA의 각 변수에서 이상값을 개별적으로 감지하고 그 행 전체를 제거합니다.

기본적으로, 이상값이란 중앙값에서 스케일링된 3 중앙값 절대 편차(MAD)를 초과하여 떨어져 있는 값입니다.

예제

B = rmoutliers(A,method)는 이상값을 결정하는 방법을 지정합니다. 예를 들어, rmoutliers(A,'mean')은 이상값을 평균에서 3 표준편차를 초과해 떨어져 있는 A의 요소로 정의합니다.

B = rmoutliers(A,'percentiles',threshold)는 이상값을 threshold에 지정된 백분위수 밖에 있는 점으로 정의합니다. threshold 인수는 백분위수 하한 임계값 및 상한 임계값을 포함하는 요소를 2개 가진 행 벡터(예: [10 90])입니다.

예제

B = rmoutliers(A,movmethod,window)는 윈도우 길이가 window인 이동 윈도우 평균 또는 중앙값을 사용하여 국소 이상값을 감지합니다. 예를 들어, rmoutliers(A,'movmean',5)는 이상값을 5개 요소로 구성된 윈도우 내에서 국소 평균으로부터 3 국소 표준편차 넘게 벗어난 요소로 정의합니다.

예제

B = rmoutliers(___,dim)은 위에 열거된 모든 구문에서 연산을 수행할 A의 차원을 지정합니다. 예를 들어 rmoutliers(A,2)는 행렬 A의 행 대신 열을 제거합니다.

예제

B = rmoutliers(___,Name,Value)는 하나 이상의 이름-값 인수를 사용하여 이상값을 감지하고 제거하는 추가 파라미터를 지정합니다. 예를 들어, rmoutliers(A,'SamplePoints',t)는 시간 벡터 t의 대응 요소를 기준으로 A의 이상값을 감지합니다.

예제

[B,TF] = rmoutliers(___)는 제거된 A의 행 또는 열에 해당하는 논리형 벡터도 반환합니다.

예제

모두 축소

두 개의 이상값을 포함하는 벡터를 생성하고 제거합니다. TF를 사용하면 입력 벡터의 어떤 요소가 이상값으로 감지되어 제거되었는지 식별할 수 있습니다.

A = [57 59 60 100 59 58 57 58 300 61 62 60 62 58 57];
[B,TF] = rmoutliers(A)
B = 1×13

    57    59    60    59    58    57    58    61    62    60    62    58    57

TF = 1x15 logical array

   0   0   0   1   0   0   0   0   1   0   0   0   0   0   0

A(TF)
ans = 1×2

   100   300

이상값이 데이터 평균에서 3 표준편차보다 큰 점으로 정의되는 벡터의 이상값을 제거합니다.

A = [57 59 60 100 59 58 57 58 300 61 62 60 62 58 57];
[B,TF] = rmoutliers(A,'mean')
B = 1×14

    57    59    60   100    59    58    57    58    61    62    60    62    58    57

TF = 1x15 logical array

   0   0   0   0   0   0   0   0   1   0   0   0   0   0   0

A(TF)
ans = 300

국소 이상값이 들어 있는 데이터의 벡터를 만듭니다.

x = -2*pi:0.1:2*pi;
A = sin(x);
A(47) = 0;

A의 데이터에 대응하는 시간 벡터를 만듭니다.

t = datetime(2017,1,1,0,0,0) + hours(0:length(x)-1);

이상값을 슬라이딩 윈도우 내 국소 중앙값에서 국소 스케일링된 3 MAD를 초과하여 떨어져 있는 점으로 정의합니다. 윈도우 크기를 5시간으로 하여 t의 점을 기준으로 A에서 이상값의 위치를 찾아 제거합니다.

[B,TF] = rmoutliers(A,'movmedian',hours(5),'SamplePoints',t);

입력 데이터와 이상값이 제거된 데이터를 플로팅합니다.

plot(t,A,'b.-',t(~TF),B,'r-')
legend('Input Data','Output Data')

Figure contains an axes object. The axes object contains 2 objects of type line. These objects represent Input Data, Output Data.

두 개의 이상값이 포함된 행렬을 만들고 이상값이 포함된 열을 제거합니다.

A = magic(5);
A(4,4) = 500;
A(5,5) = 500;
A
A = 5×5

    17    24     1     8    15
    23     5     7    14    16
     4     6    13    20    22
    10    12    19   500     3
    11    18    25     2   500

B = rmoutliers(A,2)
B = 5×3

    17    24     1
    23     5     7
     4     6    13
    10    12    19
    11    18    25

입력 인수

모두 축소

입력 데이터로, 벡터, 행렬, 테이블 또는 타임테이블로 지정됩니다.

데이터형: double | single

이상값 감지 방법으로, 다음 값 중 하나로 지정됩니다.

방법설명
'median'중앙값에서 스케일링된 3 중앙값 절대 편차(MAD)를 초과하여 떨어져 있는 요소로 이상값이 정의됩니다. 스케일링된 MAD는 c*median(abs(A-median(A)))로 정의됩니다. 여기서 c=-1/(sqrt(2)*erfcinv(3/2))입니다.
'mean'평균에서 3 표준편차를 초과하여 떨어져 있는 요소로 이상값이 정의됩니다. 이 방법은 'median'보다 빠르지만 덜 견고합니다.
'quartiles'상위 사분위수(75%)를 기준으로 1.5 사분위 범위보다 크거나 하위 사분위수(25%)를 기준으로 1.5 사분위 범위보다 작은 요소로 이상값이 정의됩니다. 이 방법은 A의 데이터가 정규분포되지 않은 경우에 유용합니다.
'grubbs'가설검정을 기반으로 이상값 1개를 매회 제거하는 이상값에 대한 그럽스 검정(Grubbs test)을 사용하여 이상값을 감지합니다. 이 방법에서는 A의 데이터가 정규분포된 것으로 가정합니다.
'gesd'이상값에 대해 일반화된 극단적 스튜던트화 이탈(Extreme Studentized Deviate) 검정을 사용하여 이상값을 감지합니다. 이 반복법은 'grubbs'와 유사하지만, 서로를 감추는 여러 이상값이 있는 경우 더 효율적일 수 있습니다.

백분위수 임계값으로, 요소가 구간 [0,100]에 있는 요소를 2개 가진 행 벡터로 지정됩니다. 첫 번째 요소는 백분위수 하한 임계값을 나타내고 두 번째 요소는 백분위수 상한 임계값을 나타냅니다. threshold의 첫 번째 요소는 두 번째 요소보다 작아야 합니다.

예를 들어, 임계값 [10 90]은 이상값을 10번째 백분위수 아래에 있는 점과 90번째 백분위수 위에 있는 점으로 정의합니다.

이상값 감지에 사용하는 이동 방법으로, 다음 값 중 하나로 지정됩니다.

방법설명
'movmedian'이상값이 window로 지정된 윈도우 길이에 걸쳐 국소 중앙값에서 국소 스케일링된 3 MAD를 초과하여 떨어져 있는 요소로 정의됩니다. 이 방법은 햄펄 필터라고도 합니다.
'movmean'이상값이 window로 지정된 윈도우 길이에 걸쳐 국소 평균에서 3 국소 표준편차를 초과하여 떨어져 있는 요소로 정의됩니다.

윈도우 길이로, 스칼라 또는 요소를 2개 가진 벡터로 지정됩니다.

window가 양의 정수 스칼라인 경우 윈도우는 현재 요소의 인근 지점에 중심을 두며, window-1개의 인접 요소를 가집니다. window가 짝수이면 윈도우의 중심은 현재 요소 및 이전 요소가 됩니다.

window가 양의 정수로 구성된 요소를 2개 가진 벡터 [b f]인 경우 윈도우에는 현재 요소, 현재 요소의 역방향으로 b개 요소, 그리고 현재 요소의 정방향으로 f개 요소가 들어 있습니다.

A가 timetable형이거나 'SamplePoints'datetime형 또는 duration형 벡터로 지정된 경우 windowduration형이어야 하며, 윈도우는 샘플 점을 기준으로 하여 계산됩니다.

연산 차원으로, 1 또는 2로 지정됩니다. 기본적으로 rmoutliers는 크기가 1이 아닌 첫 번째 차원을 따라 동작합니다.

이름-값 인수

선택적 인수 쌍을 Name1=Value1,...,NameN=ValueN으로 지정합니다. 여기서 Name은 인수 이름이고 Value는 대응값입니다. 이름-값 인수는 다른 인수 뒤에 와야 하지만, 인수 쌍의 순서는 상관없습니다.

R2021a 이전 릴리스에서는 쉼표를 사용하여 각 이름과 값을 구분하고 Name을 따옴표로 묶으십시오.

예: rmoutliers(A,'ThresholdFactor',4)

데이터 옵션

모두 축소

샘플 점으로, 샘플 점 값으로 구성된 벡터로 지정되거나 입력 데이터가 테이블인 경우 다음 표에 나와 있는 옵션 중 하나로 지정됩니다. 샘플 점은 데이터의 x축 위치를 나타내며, 이 샘플 점은 정렬되고 고유한 요소를 가져야 합니다. 샘플 점은 균일하게 샘플링할 필요가 없습니다. 벡터 [1 2 3 ...]이 디폴트 값입니다.

입력 데이터가 테이블이면 다음 옵션 중 하나를 사용하여 샘플 점을 테이블 변수로 지정할 수 있습니다.

테이블 입력값에 대한 옵션설명예제
변수 이름

단일 테이블 변수 이름을 지정하는 문자형 벡터 또는 string형 스칼라

'Var1'

"Var1"

스칼라 변수 인덱스

스칼라 테이블 변수 인덱스

3

논리형 벡터

각각의 요소가 테이블 변수에 해당하는 논리형 벡터로, 여기서 true는 해당하는 변수를 샘플 점으로 지정하고 다른 모든 요소는 false로 지정함

[true false false]

함수 핸들

테이블 변수를 입력값으로 받고 논리형 스칼라를 반환하는 함수 핸들로, 하나의 테이블 변수에 대해서만 true여야 함

@isnumeric

vartype 첨자

vartype 함수로 생성된 테이블 첨자로 하나의 변수에 대한 첨자만 반환함

vartype('numeric')

참고

입력 데이터가 timetable형인 경우에는 이 이름-값 인수가 지원되지 않습니다. 타임테이블은 항상 행 시간값으로 구성된 벡터를 샘플 점으로 사용합니다. 다른 샘플 점을 사용하려면 행 시간값이 원하는 샘플 점을 포함하도록 타임테이블을 편집해야 합니다.

이동 윈도우는 샘플 점을 기준으로 정의됩니다. 예를 들어, t가 입력 데이터에 해당하는 시간 벡터인 경우 rmoutliers(rand(1,10),'movmean',3,'SamplePoints',t)에는 t(i)-1.5 ~ t(i)+1.5 범위의 시간 구간을 나타내는 윈도우가 있습니다.

샘플 점 벡터의 데이터형이 datetime형 또는 duration형인 경우 이동 윈도우 길이는 duration형이어야 합니다.

예: rmoutliers(A,'SamplePoints',0:0.1:10)

예: rmoutliers(T,'SamplePoints',"Var1")

데이터형: single | double | datetime | duration

연산을 수행할 테이블 변수로, 다음 표에 있는 옵션 중 하나로 지정됩니다. DataVariables 값은 입력 테이블에서 이상값이 있는지 조사할 변수를 나타냅니다. 테이블에서 DataVariables로 지정되지 않은 다른 변수는 이상값이 있는지 조사되지 않은 채 출력값으로 전달됩니다. A의 행에 대해 동작할 때, rmoutliers는 지정된 변수에 해당하는 열에 이상값을 갖는 행을 모두 제거합니다. A의 열에 대해 동작할 때, rmoutliers는 테이블에서 지정된 변수를 제거합니다.

옵션설명예제
변수 이름

단일 테이블 변수 이름을 지정하는 문자형 벡터 또는 string형 스칼라

'Var1'

"Var1"

변수 이름으로 구성된 벡터

각 요소가 테이블 변수 이름인, 문자형 벡터 또는 string형 배열로 구성된 셀형 배열

{'Var1' 'Var2'}

["Var1" "Var2"]

스칼라 또는 변수 인덱스로 구성된 벡터

스칼라 또는 테이블 변수 인덱스로 구성된 벡터

1

[1 3 5]

논리형 벡터

각각의 요소가 테이블 변수에 해당하는 논리형 벡터. 여기서 true는 해당하는 변수를 포함하고 false는 해당하는 변수를 제외합니다.

[true false true]

함수 핸들

테이블 변수를 입력값으로 받고 논리형 스칼라를 반환하는 함수 핸들

@isnumeric

vartype 첨자

vartype 함수로 생성된 테이블 첨자

vartype('numeric')

예: rmoutliers(T,'DataVariables',["Var1" "Var2" "Var4"])

이상값 감지 옵션

모두 축소

감지 임계값 인자로, 음이 아닌 스칼라로 지정됩니다.

'median''movmedian' 방법의 경우 감지 임계값 인자가 스케일링된 MAD의 개수를 대체합니다. 디폴트 값은 3입니다.

'mean''movmean' 방법의 경우 감지 임계값 인자가 평균에서 벗어난 표준편차의 개수를 대체합니다. 디폴트 값은 3입니다.

'grubbs''gesd' 방법의 경우 감지 임계값 인자는 0 ~ 1 범위의 스칼라입니다. 값이 0에 가까우면 이상값 수가 적어지고, 값이 1에 가까우면 이상값 수가 많아집니다. 디폴트 감지 임계값 인자는 0.05입니다.

'quartile' 메서드의 경우 감지 임계값 인자가 사분위 범위의 개수를 대체합니다. 디폴트 값은 1.5입니다.

이 이름-값 쌍은 지정된 방법이 'percentiles'인 경우에는 지원되지 않습니다.

최대 이상값 개수로('gesd' 방법만 해당), 양의 스칼라로 지정됩니다. MaxNumOutliers 값은 'gesd' 방법이 반환하는 최대 이상값 수를 지정합니다. 예를 들어, rmoutliers(A,'gesd','MaxNumOutliers',5)는 5개 이하의 이상값을 반환합니다.

MaxNumOutliers의 디폴트 값은 A에 있는 요소 개수의 10%에 가장 가까운 정수입니다. 최대 이상값 수를 큰 수로 설정하면 모든 이상값이 감지되도록 할 수 있지만, 계산 효율성은 떨어집니다.

최소 이상값 개수로, 양의 스칼라로 지정됩니다. MinNumOutliers 값은 행 또는 열을 제거하는 데 필요한 최소 이상값 개수를 지정합니다. 예를 들어, rmoutliers(A,'MinNumOutliers',3)은 해당 행에서 이상값이 3개 이상 발견된 경우 행렬 A에서 행을 제거합니다.

출력 인수

모두 축소

이상값이 제거된 데이터로, 벡터, 행렬, table형 또는 timetable형으로 반환됩니다. B의 크기는 제거된 행 또는 열의 개수에 따라 달라집니다.

제거된 데이터 표시자로, 논리형 벡터로 반환됩니다. 값 1(true)은 제거된 A의 행 또는 열에 해당합니다. 값 0(false)은 변경되지 않은 행 또는 열에 해당합니다. TF의 방향과 크기는 A 및 연산 차원에 따라 다릅니다.

확장 기능

버전 내역

R2018b에 개발됨