이 번역 페이지는 최신 내용을 담고 있지 않습니다. 최신 내용을 영문으로 보려면 여기를 클릭하십시오.
isoutlier
데이터의 이상값 찾기
구문
설명
는 TF
= isoutlier(A
)A
의 요소에서 이상값이 발견되면 이에 대응하는 요소가 true
인 논리형 배열을 반환합니다. 기본적으로, 이상값이란 중앙값에서 스케일링된 3 중앙값 절대 편차(MAD)를 초과하여 떨어져 있는 값입니다. A
가 행렬 또는 테이블인 경우 isoutlier
는 열마다 별개로 동작합니다. A
가 다차원 배열인 경우 isoutlier
는 크기가 1이 아닌 첫 번째 차원에 따라 동작합니다.
는 하나 이상의 이름-값 쌍의 인수를 사용하여 이상값을 감지하는 추가 파라미터를 지정합니다. 예를 들어, TF
= isoutlier(___,Name,Value
)isoutlier(A,'SamplePoints',t)
는 시간 벡터 t
의 대응 요소를 기준으로 A
의 이상값을 감지합니다.
예제
벡터의 이상값 감지하기
데이터의 벡터에서 이상값을 찾습니다. 출력값의 논리값 1은 이상값의 위치를 나타냅니다.
A = [57 59 60 100 59 58 57 58 300 61 62 60 62 58 57]; TF = isoutlier(A)
TF = 1x15 logical array
0 0 0 1 0 0 0 0 1 0 0 0 0 0 0
평균을 사용하여 이상값 감지하기
이상값을 평균에서 3 표준편차 범위 밖에 있는 점으로 정의하고, 벡터에서 이상값의 위치를 찾습니다.
A = [57 59 60 100 59 58 57 58 300 61 62 60 62 58 57];
TF = isoutlier(A,'mean')
TF = 1x15 logical array
0 0 0 0 0 0 0 0 1 0 0 0 0 0 0
슬라이딩 윈도우로 이상값 감지하기
국소 이상값이 들어 있는 데이터의 벡터를 만듭니다.
x = -2*pi:0.1:2*pi; A = sin(x); A(47) = 0;
A
의 데이터에 대응하는 시간 벡터를 만듭니다.
t = datetime(2017,1,1,0,0,0) + hours(0:length(x)-1);
이상값을 슬라이딩 윈도우 내 국소 중앙값에서 국소 스케일링된 3 MAD를 초과하여 떨어져 있는 점으로 정의합니다. 윈도우 크기를 5시간으로 하여 t
의 점을 기준으로 하여 A
에서 이상값의 위치를 찾습니다. 데이터와 감지된 이상값을 플로팅합니다.
TF = isoutlier(A,'movmedian',hours(5),'SamplePoints',t); plot(t,A,t(TF),A(TF),'x') legend('Data','Outlier')
데이터 행렬
행렬의 각 행에 대한 이상값을 찾습니다.
주대각선상에 이상값이 있는 데이터 행렬을 만듭니다.
A = magic(5) + diag(200*ones(1,5))
A = 5×5
217 24 1 8 15
23 205 7 14 16
4 6 213 20 22
10 12 19 221 3
11 18 25 2 209
각 행의 데이터를 기반으로 이상값의 위치를 찾습니다.
TF = isoutlier(A,2)
TF = 5x5 logical array
1 0 0 0 0
0 1 0 0 0
0 0 1 0 0
0 0 0 1 0
0 0 0 0 1
이상값 임계값 계산하기
이상값이 들어 있는 데이터의 벡터를 만듭니다. 이상값 방법으로 결정된 임계값과 중심값, 이상값의 위치를 찾아서 플로팅합니다. 중심값은 데이터의 중앙값이며, 상한/하한 임계값은 중앙값으로부터 스케일링된 3 MAD만큼 위 그리고 아래에 있는 값입니다.
x = 1:10; A = [60 59 49 49 58 100 61 57 48 58]; [TF,L,U,C] = isoutlier(A); plot(x,A,x(TF),A(TF),'x',x,L*ones(1,10),x,U*ones(1,10),x,C*ones(1,10)) legend('Original Data','Outlier','Lower Threshold','Upper Threshold','Center Value')
입력 인수
A
— 입력 데이터
벡터 | 행렬 | 다차원 배열 | 테이블 | 타임테이블
입력 데이터로, 벡터, 행렬, 다차원 배열, table형 또는 timetable형으로 지정됩니다.
A
가 table형인 경우 그 변수는 double
형 또는 single
형이어야 하며, 아니면 'DataVariables'
이름-값 쌍을 사용하여 double
형 또는 single
형 변수를 명시적으로 나열할 수 있습니다. double
또는 single
이 아닌 데이터형의 변수가 들어 있는 테이블을 사용하는 경우 변수를 지정하는 것이 유용합니다.
A
가 timetable형인 경우 isoutlier
는 테이블 요소에 대해서만 동작합니다. 행 시간값은 고유해야 하며 오름차순으로 나열되어야 합니다.
데이터형: double
| single
| table
| timetable
method
— 이상값 감지 방법
'median'
(디폴트 값) | 'mean'
| 'quartiles'
| 'grubbs'
| 'gesd'
이상값 감지 방법으로, 다음 중 하나로 지정됩니다.
방법 | 설명 |
---|---|
'median' | 중앙값에서 스케일링된 3 MAD를 초과하여 떨어져 있는 요소에 대해 true 를 반환합니다. 스케일링된 MAD는 c*median(abs(A-median(A))) 로 정의됩니다. 여기서 c=-1/(sqrt(2)*erfcinv(3/2)) 입니다. |
'mean' | 평균에서 3 표준편차를 초과하여 떨어져 있는 요소에 대해 true 를 반환합니다. 이 방법은 'median' 보다 빠르지만 덜 견고합니다. |
'quartiles' | 상위 사분위수와 하위 사분위수에서 각각 1.5 사분위 범위를 초과해 크거나 작은 요소에 대해 true 를 반환합니다. 이 방법은 A 의 데이터가 정규분포되지 않은 경우에 유용합니다. |
'grubbs' | 가설검정을 기반으로 이상값 1개를 매회 제거하는 그럽스 검정(Grubbs Test)을 적용합니다. 이 방법에서는 A 의 데이터가 정규분포된 것으로 가정합니다. |
'gesd' | 이상값에 대해 일반화된 극단적 스튜던트화 이탈(Extreme Studentized Deviate) 검정을 적용합니다. 이 반복법은 'grubbs' 와 유사하지만, 서로를 감추는 여러 이상값이 있는 경우 더 효율적일 수 있습니다. |
threshold
— 백분위수 임계값
요소를 2개 가진 행 벡터
백분위수 임계값으로, 요소가 구간 [0,100]에 있는 요소를 2개 가진 행 벡터로 지정됩니다. 첫 번째 요소는 백분위수 하한 임계값을 나타내고 두 번째 요소는 백분위수 상한 임계값을 나타냅니다. 예를 들어, 임계값 [10 90]
은 이상값을 10번째 백분위수 아래에 있는 점과 90번째 백분위수 위에 있는 점으로 정의합니다. threshold
의 첫 번째 요소는 두 번째 요소보다 작아야 합니다.
movmethod
— 이동 방법
'movmedian'
| 'movmean'
이상값 감지에 사용하는 이동 방법으로, 다음 중 하나로 지정됩니다.
방법 | 설명 |
---|---|
'movmedian' | window 로 지정된 윈도우 길이에 걸쳐 국소 중앙값에서 국소 스케일링된 3 MAD를 초과하여 떨어져 있는 요소에 대해 true 를 반환합니다. 이 방법은 햄펄 필터라고도 합니다. |
'movmean' | window 로 지정된 윈도우 길이에 걸쳐 국소 평균에서 3 국소 표준편차를 초과하여 떨어져 있는 요소에 대해 true 를 반환합니다. |
window
— 윈도우 길이
양의 정수 스칼라 | 양의 정수로 구성된 요소를 2개 가진 벡터 | 양의 duration형 스칼라 | 양의 duration형으로 구성된 요소를 2개 가진 벡터
윈도우 길이로, 양의 정수 스칼라, 양의 정수로 구성된 요소를 2개 가진 벡터, 양의 duration형 스칼라 또는 양의 duration형으로 구성된 요소를 2개 가진 벡터로 지정됩니다.
window
가 양의 정수 스칼라인 경우 윈도우는 현재 요소의 인근 지점에 중심을 두며, window-1
개의 인접 요소를 가집니다. window
가 짝수이면 윈도우의 중심은 현재 요소 및 이전 요소가 됩니다.
window
가 양의 정수로 구성된 요소를 2개 가진 벡터 [b f]
인 경우 윈도우에는 현재 요소, 현재 요소의 역방향으로 b
개 요소, 그리고 현재 요소의 정방향으로 f
개 요소가 들어 있습니다.
A
가 timetable형이거나 'SamplePoints'
가 datetime
형 또는 duration
형 벡터로 지정된 경우 window
는 duration
형이어야 하며, 윈도우는 샘플 점을 기준으로 하여 계산됩니다.
데이터형: double
| single
| int8
| int16
| int32
| int64
| uint8
| uint16
| uint32
| uint64
| duration
dim
— 연산을 수행할 차원
양의 정수 스칼라
연산을 수행할 차원으로, 양의 정수 스칼라로 지정됩니다. 값이 지정되지 않은 경우 디폴트 값은 크기가 1이 아닌 첫 번째 배열 차원이 됩니다.
행렬 A
가 있다고 가정합니다.
isoutlier(A,1)
은 A
의 각 열에 있는 데이터에 따라 이상값을 감지합니다.
isoutlier(A,2)
는 A
의 각 행에 있는 데이터에 따라 이상값을 감지합니다.
A
가 테이블 또는 타임테이블이면 dim
이 지원되지 않습니다. isoutlier
는 각 테이블 변수나 타임테이블 변수를 따라 동작합니다.
데이터형: double
| single
| int8
| int16
| int32
| int64
| uint8
| uint16
| uint32
| uint64
이름-값 인수
예: isoutlier(A,'mean','ThresholdFactor',4)
선택적으로 Name,Value
인수가 쉼표로 구분되어 지정됩니다. 여기서 Name
은 인수 이름이고 Value
는 대응값입니다. Name
은 따옴표 안에 표시해야 합니다. Name1,Value1,...,NameN,ValueN
과 같이 여러 개의 이름-값 쌍의 인수를 어떤 순서로든 지정할 수 있습니다.
SamplePoints
— 샘플 점
벡터 | 테이블 변수 이름 | 스칼라 | 함수 핸들 | 테이블 vartype
첨자
샘플 점으로, 'SamplePoints'
와 함께 샘플 점 값으로 구성된 벡터가 쉼표로 구분되어 지정되거나, 또는 입력 데이터가 테이블인 경우 다음 표의 옵션과 함께 구성된 쌍이 쉼표로 구분되어 지정됩니다. 샘플 점은 데이터의 x축 위치를 나타내며, 이 샘플 점은 정렬되고 고유한 요소를 가져야 합니다. 샘플 점은 균일하게 샘플링할 필요가 없습니다. 벡터 [1 2 3 ...]
이 디폴트 값입니다.
이 입력 데이터가 테이블이면 다음 옵션 중 하나를 사용하여 샘플 점을 테이블 변수로 지정할 수 있습니다.
테이블 입력값에 대한 옵션 | 설명 | 예제 |
---|---|---|
변수 이름 | 단일 테이블 변수 이름을 지정하는 문자형 벡터 또는 string형 스칼라 |
|
스칼라 변수 인덱스 | 스칼라 테이블 변수 인덱스 |
|
논리형 벡터 | 각각의 요소가 테이블 변수에 해당하는 논리형 벡터로, 여기서 |
|
함수 핸들 | 테이블 변수를 입력값으로 받고 논리형 스칼라를 반환하는 함수 핸들로, 하나의 테이블 변수에 대해서만 |
|
vartype 첨자 |
|
|
참고
입력 데이터가 timetable
형인 경우에는 이 이름-값 쌍이 지원되지 않습니다. 타임테이블은 항상 행 시간값으로 구성된 벡터를 샘플 점으로 사용합니다. 다른 샘플 점을 사용하려면 행 시간값이 원하는 샘플 점을 포함하도록 타임테이블을 편집해야 합니다.
이동 윈도우는 샘플 점을 기준으로 정의됩니다. 예를 들어, t
가 입력 데이터에 해당하는 시간 벡터인 경우 isoutlier(rand(1,10),'movmean',3,'SamplePoints',t)
는 t(i)-1.5
~ t(i)+1.5
범위의 시간 구간을 나타내는 윈도우를 가집니다.
샘플 점 벡터의 데이터형이 datetime
형 또는 duration
형인 경우 이동 윈도우 길이는 duration
형이어야 합니다.
예: isoutlier(A,'SamplePoints',0:0.1:10)
예: isoutlier(T,'SamplePoints',"Var1")
데이터형: single
| double
| datetime
| duration
DataVariables
— 연산을 수행할 테이블 변수
테이블 변수 이름 | 스칼라 | 벡터 | 셀형 배열 | 함수 핸들 | 테이블 vartype
첨자
연산을 수행할 테이블 변수로, 'DataVariables'
와 함께 다음 표에 있는 옵션 중 하나가 쉼표로 구분되어 지정됩니다. 'DataVariables'
값은 입력 테이블에서 이상값이 있는지 조사할 변수를 나타냅니다. 지정된 변수와 연결된 데이터형은 double
또는 single
이어야 합니다. 테이블에서 'DataVariables'
로 지정되지 않은 다른 변수는 연산이 수행되지 않으므로 출력값은 이러한 변수에 대해 false
값을 포함합니다.
옵션 | 설명 | 예제 |
---|---|---|
변수 이름 | 단일 테이블 변수 이름을 지정하는 문자형 벡터 또는 string형 스칼라 |
|
변수 이름으로 구성된 벡터 | 각 요소가 테이블 변수 이름인, 문자형 벡터 또는 string형 배열로 구성된 셀형 배열 |
|
스칼라 또는 변수 인덱스로 구성된 벡터 | 스칼라 또는 테이블 변수 인덱스로 구성된 벡터 |
|
논리형 벡터 | 각각의 요소가 테이블 변수에 해당하는 논리형 벡터. 여기서 |
|
함수 핸들 | 테이블 변수를 입력값으로 받고 논리형 스칼라를 반환하는 함수 핸들 |
|
vartype 첨자 |
|
|
예: isoutlier(T,'DataVariables',["Var1" "Var2" "Var4"])
ThresholdFactor
— 감지 임계값 인자
음이 아닌 스칼라
감지 임계값 인자로, 'ThresholdFactor'
와 함께 음이 아닌 스칼라가 쉼표로 구분되어 지정됩니다.
'median'
과 'movmedian'
방법의 경우 감지 임계값 인자가 스케일링된 MAD의 개수를 대체합니다. 디폴트 값은 3입니다.
'mean'
과 'movmean'
방법의 경우 감지 임계값 인자가 평균에서 벗어난 표준편차의 개수를 대체합니다. 디폴트 값은 3입니다.
'grubbs'
와 'gesd'
방법의 경우 감지 임계값 인자는 0 ~ 1 범위의 스칼라입니다. 값이 0에 가까우면 이상값 수가 적어지고, 값이 1에 가까우면 이상값 수가 많아집니다. 디폴트 감지 임계값 인자는 0.05입니다.
'quartiles'
방법의 경우 감지 임계값 인자가 사분위 범위의 개수를 대체합니다. 디폴트 값은 1.5입니다.
이 이름-값 쌍은 지정된 방법이 'percentiles'
인 경우에는 지원되지 않습니다.
데이터형: double
| single
| int8
| int16
| int32
| int64
| uint8
| uint16
| uint32
| uint64
MaxNumOutliers
— 최대 이상값 개수
양의 정수
최대 이상값 개수로('gesd'
방법만 해당), 'MaxNumOutliers'
와 함께 양의 정수가 쉼표로 구분되어 지정됩니다. 'MaxNumOutliers'
값은 'gesd'
방법이 반환하는 최대 이상값 수를 지정합니다. 예를 들어, isoutlier(A,'gesd','MaxNumOutliers',5)
는 5개 이하의 이상값을 반환합니다.
'MaxNumOutliers'
의 디폴트 값은 A
에 있는 요소 개수의 10%에 가장 가까운 정수입니다. 최대 이상값 수를 큰 수로 설정하면 모든 이상값이 감지되도록 할 수 있지만, 계산 효율성은 떨어집니다.
'gesd'
방법은 이상값이 아닌 입력 데이터가 근사 정규분포에서 추출된 것으로 가정합니다. 데이터가 이러한 방식으로 추출되지 않은 경우 반환되는 이상값의 개수는 'MaxNumOutliers'
값을 초과할 수 있습니다.
데이터형: double
| single
| int8
| int16
| int32
| int64
| uint8
| uint16
| uint32
| uint64
출력 인수
TF
— 이상값 표시자
벡터 | 행렬 | 다차원 배열
이상값 표시자로, 벡터, 행렬 또는 다차원 배열로 반환됩니다. TF
의 요소는 A
의 대응 요소가 이상값이면 true
이고, 그렇지 않으면 false
입니다. TF
의 크기는 A
와 같습니다.
데이터형: logical
L
— 하한 임계값
스칼라 | 벡터 | 행렬 | 다차원 배열 | 테이블 | 타임테이블
이상값 감지 방법이 사용하는 하한 임계값으로, 스칼라, 벡터, 행렬, 다차원 배열, 테이블 또는 타임테이블로 반환됩니다. 예를 들어, 디폴트 이상값 감지 방법의 하한 값은 입력 데이터 중앙값에서 스케일링된 3 MAD 아래 값입니다. 길이가 1인 연산 차원을 제외한 모든 차원에서 L
의 크기는 A
와 같습니다.
데이터형: double
| single
| table
| timetable
U
— 상한 임계값
스칼라 | 벡터 | 행렬 | 다차원 배열 | 테이블 | 타임테이블
이상값 감지 방법이 사용하는 상한 임계값으로, 스칼라, 벡터, 행렬, 다차원 배열, 테이블 또는 타임테이블로 반환됩니다. 예를 들어, 디폴트 이상값 감지 방법의 상한 값은 입력 데이터 중앙값에서 스케일링된 3 MAD 위 값입니다. 길이가 1인 연산 차원을 제외한 모든 차원에서 U
의 크기는 A
와 같습니다.
데이터형: double
| single
| table
| timetable
C
— 중심값
스칼라 | 벡터 | 행렬 | 다차원 배열 | 테이블 | 타임테이블
이상값 감지 방법이 사용하는 중심값으로, 스칼라, 벡터, 행렬, 다차원 배열, 테이블 또는 타임테이블로 반환됩니다. 예를 들어, 디폴트 이상값 감지 방법의 중심값은 입력 데이터의 중앙값입니다. 길이가 1인 연산 차원을 제외한 모든 차원에서 C
의 크기는 A
와 같습니다.
데이터형: double
| single
| table
| timetable
세부 정보
중앙값 절대 편차
N개의 스칼라 관측값으로 구성된 확률 변수 벡터 A에 대해, 중앙값 절대 편차(MAD)는 다음과 같이 정의됩니다.
여기서 i = 1,2,...,N입니다.
스케일링된 MAD는 c*median(abs(A-median(A)))
로 정의됩니다. 여기서 c=-1/(sqrt(2)*erfcinv(3/2))
입니다.
확장 기능
tall형 배열
메모리에 담을 수 없을 정도로 많은 행을 가진 배열을 계산할 수 있습니다.
사용법 관련 참고 및 제한 사항:
'percentiles'
,'grubbs'
,'gesd'
방법은 지원되지 않습니다.'movmedian'
방법과'movmean'
방법은 tall형 타임테이블을 지원하지 않습니다.'SamplePoints'
및'MaxNumOutliers'
이름-값 쌍은 지원되지 않습니다.'DataVariables'
의 값은 함수 핸들일 수 없습니다.A
가 tall형 열 벡터인 경우에만 첫 번째 차원에 대해isoutlier(A)
,isoutlier(A,'median',...)
또는isoutlier(A,'quartiles',...)
를 계산할 수 있습니다.
자세한 내용은 tall형 배열 항목을 참조하십시오.
C/C++ 코드 생성
MATLAB® Coder™를 사용하여 C 코드나 C++ 코드를 생성할 수 있습니다.
사용법 관련 참고 및 제한 사항:
이상값 감지를 위한
'movmean'
방법과'movmedian'
방법은 timetable형 입력 데이터, datetime형'SamplePoints'
값 또는 duration형'SamplePoints'
값을 지원하지 않습니다.string형과 문자형 배열 입력값은 상수여야 합니다.
스레드 기반 환경
MATLAB®의 backgroundPool
을 사용해 백그라운드에서 코드를 실행하거나 Parallel Computing Toolbox™의 ThreadPool
을 사용해 코드 실행 속도를 높일 수 있습니다.
이 함수는 스레드 기반 환경을 완전히 지원합니다. 자세한 내용은 Run MATLAB Functions in Thread-Based Environment 항목을 참조하십시오.
GPU 배열
Parallel Computing Toolbox™를 사용해 GPU(그래픽스 처리 장치)에서 실행하여 코드 실행 속도를 높일 수 있습니다.
사용법 관련 참고 및 제한 사항:
'movmedian'
이동 방법은 지원되지 않습니다.'SamplePoints'
및'DataVariables'
이름-값 쌍은 지원되지 않습니다.
자세한 내용은 GPU에서 MATLAB 함수 실행하기 (Parallel Computing Toolbox) 항목을 참조하십시오.
버전 내역
MATLAB 명령
다음 MATLAB 명령에 해당하는 링크를 클릭했습니다.
명령을 실행하려면 MATLAB 명령 창에 입력하십시오. 웹 브라우저는 MATLAB 명령을 지원하지 않습니다.
Select a Web Site
Choose a web site to get translated content where available and see local events and offers. Based on your location, we recommend that you select: .
You can also select a web site from the following list:
How to Get Best Site Performance
Select the China site (in Chinese or English) for best site performance. Other MathWorks country sites are not optimized for visits from your location.
Americas
- América Latina (Español)
- Canada (English)
- United States (English)
Europe
- Belgium (English)
- Denmark (English)
- Deutschland (Deutsch)
- España (Español)
- Finland (English)
- France (Français)
- Ireland (English)
- Italia (Italiano)
- Luxembourg (English)
- Netherlands (English)
- Norway (English)
- Österreich (Deutsch)
- Portugal (English)
- Sweden (English)
- Switzerland
- United Kingdom (English)