standardizeMissing

표준 누락값 삽입

페이지 내 모두 축소

구문

B = standardizeMissing(A,indicator)

B = standardizeMissing(___,Name,Value)

설명

예제

B = standardizeMissing(A,indicator)는 indicator에 지정된 값을 A의 표준 누락값으로 바꾸고 표준화된 배열 또는 테이블을 반환합니다.

누락값은 다음과 같이 A의 데이터형에 따라 정의됩니다.

NaN — double형, single형, duration형, calendarDuration형
NaT — datetime
<missing> — string
<undefined> — categorical
{''} — 문자형 벡터로 구성된 cell형

A가 테이블이면 각 변수의 데이터형에 따라 해당 변수의 누락값이 정의됩니다.

예제

B = standardizeMissing(___,Name,Value)는 하나 이상의 이름-값 인수를 사용하여 누락값을 표준화하기 위한 추가 파라미터를 지정합니다. 예를 들어, A가 테이블이거나 타임테이블이면 standardizeMissing(A,indicator,'DataVariables',datavars)는 datavars로 지정된 변수의 누락값을 표준화합니다.

예제

모두 축소

비표준 누락 숫자

라이브 스크립트 열기

행 벡터를 만들고 -99의 모든 인스턴스를 double 데이터형의 표준 누락값 NaN으로 바꿉니다.

A = [0 1 5 -99 8 3 4 -99 16];
B = standardizeMissing(A,-99)

B = 1×9

     0     1     5   NaN     8     3     4   NaN    16

지정된 값의 모든 인스턴스 바꾸기

라이브 스크립트 열기

누락값을 나타내기 위해 Inf 및 'N/A'가 포함된 테이블을 만듭니다.

dblVar = [NaN;3;Inf;7;9];
cellstrVar = {'one';'three';'';'N/A';'nine'};
charVar = ['A';'C';'E';' ';'I'];
categoryVar = categorical({'red';'yellow';'blue';'violet';''});

A = table(dblVar,cellstrVar,charVar,categoryVar)

A=5×4 table
    dblVar    cellstrVar    charVar    categoryVar
    ______    __________    _______    ___________

     NaN      {'one'   }       A       red        
       3      {'three' }       C       yellow     
     Inf      {0x0 char}       E       blue       
       7      {'N/A'   }               violet     
       9      {'nine'  }       I       <undefined>

Inf의 모든 인스턴스를 NaN으로 바꾸고 'N/A'의 모든 인스턴스를 빈 문자형 벡터 ''로 바꿉니다.

B = standardizeMissing(A,{Inf,'N/A'})

B=5×4 table
    dblVar    cellstrVar    charVar    categoryVar
    ______    __________    _______    ___________

     NaN      {'one'   }       A       red        
       3      {'three' }       C       yellow     
     NaN      {0x0 char}       E       blue       
       7      {0x0 char}               violet     
       9      {'nine'  }       I       <undefined>

지정된 변수의 값만 바꾸기

라이브 스크립트 열기

테이블의 지정된 변수에서 발생하는 Inf 및 'N/A'의 인스턴스를 표준 누락값 표시자로 바꿉니다.

누락값을 나타내기 위해 Inf 및 'N/A'가 포함된 테이블을 만듭니다.

a = {'alpha';'bravo';'charlie';'';'N/A'};
x = [1;NaN;3;Inf;5];
y = [57;732;93;1398;Inf];

A = table(a,x,y)

A=5×3 table
         a          x      y  
    ___________    ___    ____

    {'alpha'  }      1      57
    {'bravo'  }    NaN     732
    {'charlie'}      3      93
    {0x0 char }    Inf    1398
    {'N/A'    }      5     Inf

변수 a 및 x에 대해 Inf의 인스턴스를 NaN으로 바꾸고 'N/A'를 빈 문자형 벡터 ''로 바꿉니다.

B = standardizeMissing(A,{Inf,'N/A'},'DataVariables',{'a','x'})

B=5×3 table
         a          x      y  
    ___________    ___    ____

    {'alpha'  }      1      57
    {'bravo'  }    NaN     732
    {'charlie'}      3      93
    {0x0 char }    NaN    1398
    {0x0 char }      5     Inf

y는 DataVariables 이름-값 인수에 포함되지 않기 때문에, 변수 y의 Inf는 변경되지 않고 그대로 유지됩니다.

입력 인수

모두 축소

`A` — 입력 데이터
벡터 | 행렬 | 다차원 배열 | 테이블 | 타임테이블

입력 데이터로, 벡터, 행렬, 다차원 배열, table형 또는 timetable형으로 지정됩니다. A가 timetable형이면 standardizeMissing은 테이블 데이터에 대해서만 동작하고 행 시간값으로 구성된 벡터의 NaT 값 및 NaN 값은 무시합니다.

`indicator` — 비표준 누락값 표시자
스칼라 | 벡터 | 셀형 배열

비표준 누락값 표시자로, 스칼라, 벡터 또는 셀형 배열로 지정됩니다. indicator의 요소는 standardizeMissing이 누락된 값으로 처리하는 값을 정의합니다. A가 배열인 경우 indicator는 벡터여야 합니다. A가 테이블 또는 타임테이블인 경우 indicator는 여러 데이터형을 요소로 가지는 셀형 배열일 수도 있습니다.

indicator에 지정된 데이터형은 A의 대응하는 요소의 데이터형과 일치합니다. 다음은 indicator의 요소와 A의 요소 간에 추가로 일치하는 데이터형입니다.

double형 표시자는 A의 double형, single형, 정수, logical형 요소와 일치합니다.
string형 표시자와 char형 표시자는 A의 categorical형 요소와 일치합니다.

예: B = standardizeMissing(A,'N/A')는 문자형 벡터 'N/A'를 빈 문자형 벡터 ''로 바꿉니다.

이름-값 인수

선택적 인수 쌍을 Name1=Value1,...,NameN=ValueN으로 지정합니다. 여기서 Name은 인수 이름이고 Value는 대응값입니다. 이름-값 인수는 다른 인수 뒤에 와야 하지만, 인수 쌍의 순서는 상관없습니다.

R2021a 이전 릴리스에서는 쉼표를 사용하여 각 이름과 값을 구분하고 Name을 따옴표로 묶으십시오.

예: standardizeMissing(T,indicator,'ReplaceValues',false)

`DataVariables` — 연산을 수행할 테이블 변수
테이블 변수 이름 | 스칼라 | 벡터 | 셀형 배열 | pattern형 | 함수 핸들 | 테이블 `vartype` 첨자

연산을 수행할 테이블 변수로, 다음 표에 있는 옵션 중 하나로 지정됩니다. DataVariables 값은 입력 테이블에서 채울 변수를 나타냅니다.

테이블에서 DataVariables로 지정되지 않은 다른 변수는 표준화되지 않은 채 출력값으로 전달됩니다.

인덱싱 방식 예제

인덱싱 방식	예제
변수 이름: string형, 문자형 벡터 또는 셀형 배열 `pattern` 객체	`"A"` 또는 `'A'` — `A`라는 변수 `["A","B"]` 또는 `{'A','B'}` — `A` 및 `B`라는 두 개의 변수 `"Var"+digitsPattern(1)` — `"Var"` 다음에 하나의 숫자가 오는 이름을 갖는 변수
변수 인덱스: 테이블에서의 변수 위치를 나타내는 인덱스 번호 숫자로 구성된 벡터 논리형 벡터. 일반적으로 이 벡터는 변수의 개수와 길이가 같지만 후행 `0` 값 또는 `false` 값을 생략할 수 있음	`3` — 테이블의 세 번째 변수 `[2 3]` — 테이블의 두 번째 변수와 세 번째 변수 `[false false true]` — 세 번째 변수
함수 핸들: 테이블 변수를 입력값으로 받고 논리형 스칼라를 반환하는 함수 핸들	`@isnumeric` — 숫자형 값을 포함하는 모든 변수
변수 유형: 지정된 유형의 변수를 선택하는 `vartype` 첨자	`vartype("numeric")` — 숫자형 값을 포함하는 모든 변수

변수 이름:

string형, 문자형 벡터 또는 셀형 배열
pattern 객체

"A" 또는 'A' — A라는 변수
["A","B"] 또는 {'A','B'} — A 및 B라는 두 개의 변수
"Var"+digitsPattern(1) — "Var" 다음에 하나의 숫자가 오는 이름을 갖는 변수

변수 인덱스:

테이블에서의 변수 위치를 나타내는 인덱스 번호
숫자로 구성된 벡터
논리형 벡터. 일반적으로 이 벡터는 변수의 개수와 길이가 같지만 후행 0 값 또는 false 값을 생략할 수 있음

3 — 테이블의 세 번째 변수
[2 3] — 테이블의 두 번째 변수와 세 번째 변수
[false false true] — 세 번째 변수

함수 핸들:

테이블 변수를 입력값으로 받고 논리형 스칼라를 반환하는 함수 핸들

@isnumeric — 숫자형 값을 포함하는 모든 변수

변수 유형:

지정된 유형의 변수를 선택하는 vartype 첨자

vartype("numeric") — 숫자형 값을 포함하는 모든 변수

예: standardizeMissing(T,indicator,'DataVariables',["Var1" "Var2" "Var4"])

`ReplaceValues` — 값 바꾸기 표시자
`true` 또는 `1` (디폴트 값) | `false` 또는 `0`

값 바꾸기 표시자로, A가 테이블 또는 타임테이블이면 다음 값 중 하나로 지정됩니다.

true 또는 1 — 누락된 요소를 포함하는 입력 테이블 변수를 표준화된 테이블 변수로 바꿉니다.
false 또는 0 — 누락된 요소가 있는지 확인한 모든 테이블 변수를 입력 테이블에 추가합니다. 추가된 변수에서 누락 요소들이 표준화됩니다.

벡터, 행렬 또는 다차원 배열 입력 데이터에는 ReplaceValues가 지원되지 않습니다.

ReplaceValues의 값이 false가 아닌 경우 B는 A와 크기가 동일합니다. ReplaceValues 값이 false이면 너비 B는 입력 데이터 너비와 지정된 데이터 변수 개수의 합입니다.

예: standardizeMissing(T,indicator,'ReplaceValues',false)

알고리즘

standardizeMissing은 문자형 벡터로 구성된 셀형 배열, 문자형 배열 및 categorical형 배열에 대해 선행 공백과 후행 공백을 각각 다르게 처리합니다.

문자형 벡터로 구성된 셀형 배열의 경우 standardizeMissing은 공백을 무시하지 않습니다. 모든 문자형 벡터는 indicator에 지정된 문자형 벡터와 정확히 일치해야 합니다.
문자형 배열의 경우 standardizeMissing은 후행 공백을 무시합니다.
categorical형 배열의 경우 standardizeMissing은 선행 공백과 후행 공백을 무시합니다.

확장 기능

tall형 배열
메모리에 담을 수 없을 정도로 많은 행을 가진 배열을 계산할 수 있습니다.

이 함수는 tall형 배열을 완전히 지원합니다. 자세한 내용은 tall형 배열 항목을 참조하십시오.

C/C++ 코드 생성
MATLAB® Coder™를 사용하여 C 코드나 C++ 코드를 생성할 수 있습니다.

비표준 누락값 표시자는 스칼라 또는 벡터여야 합니다.

스레드 기반 환경
MATLAB®의 `backgroundPool`을 사용해 백그라운드에서 코드를 실행하거나 Parallel Computing Toolbox™의 `ThreadPool`을 사용해 코드 실행 속도를 높일 수 있습니다.

이 함수는 스레드 기반 환경을 완전히 지원합니다. 자세한 내용은 스레드 기반 환경에서 MATLAB 함수 실행하기 항목을 참조하십시오.

분산 배열
Parallel Computing Toolbox™를 사용하여 대규모 배열을 클러스터의 결합된 메모리에 걸쳐 분할할 수 있습니다.

이 함수는 분산 배열을 완전히 지원합니다. 자세한 내용은 분산 배열을 사용하여 MATLAB 함수 실행 (Parallel Computing Toolbox) 항목을 참조하십시오.

버전 내역

R2013b에 개발됨

모두 확장

R2022b: 문자형 배열은 표준 누락값을 갖지 않음

문자형 배열은 표준 누락값에 대한 디폴트 정의를 갖지 않습니다. 따라서 standardizeMissing은 문자형 배열의 값을 대체하지 않습니다. 예를 들어, standardizeMissing(['ab'; 'NA'],'NA')는 논리형 배열 ['ab'; 'NA']를 반환합니다. 이전에는 ['ab'; ' ']을 반환했습니다.

R2022a: 표준화된 값 추가

이제 누락된 요소가 있는지 확인한 모든 테이블 변수를 입력 테이블에 추가할 수 있습니다. 추가된 변수에서 누락 요소들이 표준화됩니다. ReplaceValues 이름-값 인수를 false로 설정하여 테이블 변수를 바꾸지 않고 추가합니다.

ReplaceValues 이름-값 인수는 table형 및 timetable형 입력 데이터에 대해서만 지원됩니다.

참고 항목

standardizeMissing

구문

설명

예제

비표준 누락 숫자

지정된 값의 모든 인스턴스 바꾸기

지정된 변수의 값만 바꾸기

입력 인수

A — 입력 데이터 벡터 | 행렬 | 다차원 배열 | 테이블 | 타임테이블

indicator — 비표준 누락값 표시자 스칼라 | 벡터 | 셀형 배열

이름-값 인수

DataVariables — 연산을 수행할 테이블 변수 테이블 변수 이름 | 스칼라 | 벡터 | 셀형 배열 | pattern형 | 함수 핸들 | 테이블 vartype 첨자

ReplaceValues — 값 바꾸기 표시자 true 또는 1 (디폴트 값) | false 또는 0

알고리즘

확장 기능

tall형 배열 메모리에 담을 수 없을 정도로 많은 행을 가진 배열을 계산할 수 있습니다.

C/C++ 코드 생성 MATLAB® Coder™를 사용하여 C 코드나 C++ 코드를 생성할 수 있습니다.

스레드 기반 환경 MATLAB®의 backgroundPool을 사용해 백그라운드에서 코드를 실행하거나 Parallel Computing Toolbox™의 ThreadPool을 사용해 코드 실행 속도를 높일 수 있습니다.

분산 배열 Parallel Computing Toolbox™를 사용하여 대규모 배열을 클러스터의 결합된 메모리에 걸쳐 분할할 수 있습니다.

버전 내역

R2022b: 문자형 배열은 표준 누락값을 갖지 않음

R2022a: 표준화된 값 추가

참고 항목

함수

앱

도움말 항목

`A` — 입력 데이터
벡터 | 행렬 | 다차원 배열 | 테이블 | 타임테이블

`indicator` — 비표준 누락값 표시자
스칼라 | 벡터 | 셀형 배열

`DataVariables` — 연산을 수행할 테이블 변수
테이블 변수 이름 | 스칼라 | 벡터 | 셀형 배열 | pattern형 | 함수 핸들 | 테이블 `vartype` 첨자

`ReplaceValues` — 값 바꾸기 표시자
`true` 또는 `1` (디폴트 값) | `false` 또는 `0`

tall형 배열
메모리에 담을 수 없을 정도로 많은 행을 가진 배열을 계산할 수 있습니다.

C/C++ 코드 생성
MATLAB® Coder™를 사용하여 C 코드나 C++ 코드를 생성할 수 있습니다.

스레드 기반 환경
MATLAB®의 `backgroundPool`을 사용해 백그라운드에서 코드를 실행하거나 Parallel Computing Toolbox™의 `ThreadPool`을 사용해 코드 실행 속도를 높일 수 있습니다.

분산 배열
Parallel Computing Toolbox™를 사용하여 대규모 배열을 클러스터의 결합된 메모리에 걸쳐 분할할 수 있습니다.