Main Content

이 번역 페이지는 최신 내용을 담고 있지 않습니다. 최신 내용을 영문으로 보려면 여기를 클릭하십시오.

standardizeMissing

표준 누락값 삽입

설명

B = standardizeMissing(A,indicator)indicator에 지정된 값을 A의 표준 누락값으로 바꾸고 표준화된 배열 또는 테이블을 반환합니다.

누락값은 다음과 같이 A의 데이터형에 따라 정의됩니다.

  • NaNdouble형, single형, duration형, calendarDuration

  • NaTdatetime

  • <missing>string

  • <undefined>categorical

  • {''} — 문자형 벡터로 구성된 cell

A가 테이블이면 각 변수의 데이터형에 따라 해당 변수의 누락값이 정의됩니다.

누락값을 표준화하는 것 외에도, 라이브 스크립트에 누락된 데이터 정리 작업을 추가하여 대화형 방식으로 누락된 데이터를 찾거나, 채우거나, 제거할 수 있습니다.

예제

B = standardizeMissing(___,Name,Value)는 하나 이상의 이름-값 인수를 사용하여 누락값을 표준화하기 위한 추가 파라미터를 지정합니다. 예를 들어, A가 테이블이거나 타임테이블이면 standardizeMissing(A,indicator,'DataVariables',datavars)datavars로 지정된 변수의 누락값을 표준화합니다.

예제

예제

모두 축소

행 벡터를 만들고 -99의 모든 인스턴스를 double 데이터형의 표준 누락값 NaN으로 바꿉니다.

A = [0 1 5 -99 8 3 4 -99 16];
B = standardizeMissing(A,-99)
B = 1×9

     0     1     5   NaN     8     3     4   NaN    16

누락값을 나타내기 위해 Inf'N/A'가 포함된 테이블을 만듭니다.

dblVar = [NaN;3;Inf;7;9];
cellstrVar = {'one';'three';'';'N/A';'nine'};
charVar = ['A';'C';'E';' ';'I'];
categoryVar = categorical({'red';'yellow';'blue';'violet';''});

A = table(dblVar,cellstrVar,charVar,categoryVar)
A=5×4 table
    dblVar    cellstrVar    charVar    categoryVar
    ______    __________    _______    ___________

     NaN      {'one'   }       A       red        
       3      {'three' }       C       yellow     
     Inf      {0x0 char}       E       blue       
       7      {'N/A'   }               violet     
       9      {'nine'  }       I       <undefined>

Inf의 모든 인스턴스를 NaN으로 바꾸고 'N/A'의 모든 인스턴스를 빈 문자형 벡터 ''로 바꿉니다.

B = standardizeMissing(A,{Inf,'N/A'})
B=5×4 table
    dblVar    cellstrVar    charVar    categoryVar
    ______    __________    _______    ___________

     NaN      {'one'   }       A       red        
       3      {'three' }       C       yellow     
     NaN      {0x0 char}       E       blue       
       7      {0x0 char}               violet     
       9      {'nine'  }       I       <undefined>

테이블의 지정된 변수에서 발생하는 Inf'N/A'의 인스턴스를 표준 누락값 표시자로 바꿉니다.

누락값을 나타내기 위해 Inf'N/A'가 포함된 테이블을 만듭니다.

a = {'alpha';'bravo';'charlie';'';'N/A'};
x = [1;NaN;3;Inf;5];
y = [57;732;93;1398;Inf];

A = table(a,x,y)
A=5×3 table
         a          x      y  
    ___________    ___    ____

    {'alpha'  }      1      57
    {'bravo'  }    NaN     732
    {'charlie'}      3      93
    {0x0 char }    Inf    1398
    {'N/A'    }      5     Inf

변수 ax에 대해 Inf의 인스턴스를 NaN으로 바꾸고 'N/A'를 빈 문자형 벡터 ''로 바꿉니다.

B = standardizeMissing(A,{Inf,'N/A'},'DataVariables',{'a','x'})
B=5×3 table
         a          x      y  
    ___________    ___    ____

    {'alpha'  }      1      57
    {'bravo'  }    NaN     732
    {'charlie'}      3      93
    {0x0 char }    NaN    1398
    {0x0 char }      5     Inf

yDataVariables 이름-값 인수에 포함되지 않기 때문에, 변수 yInf는 변경되지 않고 그대로 유지됩니다.

입력 인수

모두 축소

입력 데이터로, 벡터, 행렬, 다차원 배열, table형 또는 timetable형으로 지정됩니다. A가 timetable형이면 standardizeMissing은 테이블 데이터에 대해서만 동작하고 행 시간값으로 구성된 벡터의 NaT 값 및 NaN 값은 무시합니다.

데이터형: double | single | char | string | cell | table | timetable | categorical | datetime | duration

비표준 누락값 표시자로, 스칼라, 벡터 또는 셀형 배열로 지정됩니다. indicator의 요소는 standardizeMissing이 누락된 값으로 처리하는 값을 정의합니다. A가 배열인 경우 indicator는 벡터여야 합니다. A가 테이블 또는 타임테이블인 경우 indicator는 여러 데이터형을 요소로 가지는 셀형 배열일 수도 있습니다.

indicator에 지정된 데이터형은 A의 대응하는 요소의 데이터형과 일치합니다. 다음은 indicator의 요소와 A의 요소 간에 추가로 일치하는 데이터형입니다.

  • double형 표시자는 Adouble형, single형, 정수, logical형 요소와 일치합니다.

  • string형 표시자와 char형 표시자는 Acategorical형 요소와 일치합니다.

예: B = standardizeMissing(A,'N/A')는 문자형 벡터 'N/A'를 빈 문자형 벡터 ''로 바꿉니다.

데이터형: single | double | int8 | int16 | int32 | int64 | uint8 | uint16 | uint32 | uint64 | logical | char | string | cell | datetime | duration

이름-값 인수

선택적 인수 쌍을 Name1=Value1,...,NameN=ValueN으로 지정합니다. 여기서 Name은 인수 이름이고 Value는 대응값입니다. 이름-값 인수는 다른 인수 뒤에 와야 하지만, 인수 쌍의 순서는 상관없습니다.

R2021a 이전 릴리스에서는 쉼표를 사용하여 각 이름과 값을 구분하고 Name을 따옴표로 묶으십시오.

예: standardizeMissing(T,indicator,'ReplaceValues',false)

연산을 수행할 테이블 변수로, 다음 표에 있는 옵션 중 하나로 지정됩니다. DataVariables 값은 입력 테이블에서 채울 변수를 나타냅니다.

테이블에서 DataVariables로 지정되지 않은 다른 변수는 표준화되지 않은 채 출력값으로 전달됩니다.

인덱싱 방식예제

변수 이름:

  • string형 또는 문자형 벡터

  • string형 배열 또는 문자형 벡터로 구성된 셀형 배열

  • pattern 객체

  • "A" 또는 'A'A라는 변수

  • ["A" "B"] 또는 {'A','B'}AB라는 두 개의 변수

  • "Var"+digitsPattern(1)"Var" 다음에 하나의 숫자가 오는 이름을 갖는 변수

변수 인덱스:

  • 테이블에서의 변수 위치를 나타내는 인덱스 번호

  • 숫자로 구성된 벡터

  • 논리형 벡터. 일반적으로 이 벡터는 변수의 개수와 길이가 같지만 후행 0 값 또는 false 값을 생략할 수 있습니다.

  • 3 — 테이블의 세 번째 변수

  • [2 3] — 테이블의 두 번째 변수와 세 번째 변수

  • [false false true] — 세 번째 변수

함수 핸들:

  • 테이블 변수를 입력값으로 받고 논리형 스칼라를 반환하는 함수 핸들

  • @isnumeric — 숫자형 값을 포함하는 모든 변수

변수 유형:

  • 지정된 유형의 변수를 선택하는 vartype 첨자

  • vartype("numeric") — 숫자형 값을 포함하는 모든 변수

예: standardizeMissing(T,indicator,'DataVariables',["Var1" "Var2" "Var4"])

값 바꾸기 표시자로, A가 테이블 또는 타임테이블이면 다음 값 중 하나로 지정됩니다.

  • true 또는 1 — 누락된 요소를 포함하는 입력 테이블 변수를 표준화된 테이블 변수로 바꿉니다.

  • false 또는 0 — 누락된 요소가 있는지 확인한 모든 테이블 변수를 입력 테이블에 추가합니다. 추가된 변수에서 누락 요소들이 표준화됩니다.

벡터, 행렬 또는 다차원 배열 입력 데이터에는 ReplaceValues가 지원되지 않습니다.

ReplaceValues의 값이 false가 아닌 경우 BA와 크기가 동일합니다. ReplaceValues 값이 false이면 너비 B는 입력 데이터 너비와 지정된 데이터 변수 개수의 합입니다.

예: standardizeMissing(T,indicator,'ReplaceValues',false)

알고리즘

standardizeMissing은 문자형 벡터로 구성된 셀형 배열, 문자형 배열 및 categorical형 배열에 대해 선행 공백과 후행 공백을 각각 다르게 처리합니다.

  • 문자형 벡터로 구성된 셀형 배열의 경우 standardizeMissing은 공백을 무시하지 않습니다. 모든 문자형 벡터는 indicator에 지정된 문자형 벡터와 정확히 일치해야 합니다.

  • 문자형 배열의 경우 standardizeMissing은 후행 공백을 무시합니다.

  • categorical형 배열의 경우 standardizeMissing은 선행 공백과 후행 공백을 무시합니다.

대체 기능

라이브 편집기 작업

누락값을 표준화하는 것 외에도, 라이브 스크립트에 누락된 데이터 정리 작업을 추가하여 대화형 방식으로 누락된 데이터를 찾거나, 채우거나, 제거할 수 있습니다.

Clean Missing Data task in the Live Editor

확장 기능

버전 내역

R2013b에 개발됨

모두 확장