이 페이지의 최신 내용은 아직 번역되지 않았습니다. 최신 내용은 영문으로 볼 수 있습니다.

테이블 변수의 텍스트를 categorical형으로 변환하기

이 예제에서는 문자형 벡터로 구성된 셀형 배열에서 categorical형 배열로 테이블의 변수를 변환하는 방법을 보여줍니다.

샘플 데이터 불러오기 및 테이블 생성

100명의 환자로부터 수집한 샘플 데이터를 불러옵니다.

load patients

whos
  Name                            Size            Bytes  Class      Attributes

  Age                           100x1               800  double               
  Diastolic                     100x1               800  double               
  Gender                        100x1             12212  cell                 
  Height                        100x1               800  double               
  LastName                      100x1             12416  cell                 
  Location                      100x1             15008  cell                 
  SelfAssessedHealthStatus      100x1             12340  cell                 
  Smoker                        100x1               100  logical              
  Systolic                      100x1               800  double               
  Weight                        100x1               800  double               

Age, Gender, Height, Weight, SelfAssessedHealthStatus, Location의 환자 데이터를 테이블에 저장합니다. 변수 LastName의 고유한 식별자를 행 이름으로 사용합니다.

T = table(Age,Gender,Height,Weight,...
    SelfAssessedHealthStatus,Location,...
    'RowNames',LastName);

문자형 벡터로 구성된 셀형 배열에서 categorical형 배열로 테이블 변수를 변환하기

문자형 벡터로 구성된 셀형 배열인 GenderLocation은 고유한 값으로 구성된 이산 집합을 포함합니다.

GenderLocation를 categorical형 배열로 변환합니다.

T.Gender = categorical(T.Gender);
T.Location = categorical(T.Location);

변수 SelfAssessedHealthStatus는 4개의 고유한 값 Excellent, Fair, Good, Poor를 포함합니다.

범주에 수학적 정렬(Mathematical Ordering) Poor < Fair < Good < Excellent가 적용되는 순서형 categorical형 배열로 SelfAssessedHealthStatus를 변환합니다.

T.SelfAssessedHealthStatus = categorical(T.SelfAssessedHealthStatus,...
    {'Poor','Fair','Good','Excellent'},'Ordinal',true);

요약 출력하기

테이블을 요약하는 summary를 사용하여 각 변수에 대한 데이터형, 설명, 단위 및 기타 기술 통계량을 확인합니다.

format compact

summary(T)
Variables:
    Age: 100x1 double
        Values:
            Min        25  
            Median     39  
            Max        50  
    Gender: 100x1 categorical
        Values:
            Female       53   
            Male         47   
    Height: 100x1 double
        Values:
            Min          60   
            Median       67   
            Max          72   
    Weight: 100x1 double
        Values:
            Min          111  
            Median     142.5  
            Max          202  
    SelfAssessedHealthStatus: 100x1 ordinal categorical
        Values:
            Poor                     11            
            Fair                     15            
            Good                     40            
            Excellent                34            
    Location: 100x1 categorical
        Values:
            County General Hospital          39    
            St. Mary s Medical Center        24    
            VA Hospital                      37    

테이블 변수 Gender, SelfAssessedHealthStatus, Location은 categorical형 배열입니다. 요약에는 각 범주에 포함된 요소의 개수가 포함됩니다. 예를 들어, 요약에 100명의 환자 중 53명이 여성이고, 47명이 남성임이 표시됩니다.

범주를 기반으로 하여 데이터 선택

County General Hospital에서 관찰한 모든 여성 환자의 연령, 키, 체중을 포함하는 하위 테이블 T1을 생성합니다. categorical형 배열 GenderLocation에 포함된 값을 기반으로 하여 논리형 벡터를 손쉽게 생성할 수 있습니다.

rows = T.Location=='County General Hospital' & T.Gender=='Female';

rows는 성별이 'Female'이고 위치가 County General Hospital인 테이블 행에 대해 논리값 true(1)를 가지는 100x1 논리형 벡터입니다.

변수의 서브셋을 정의합니다.

vars = {'Age','Height','Weight'};

괄호를 사용하여 하위 테이블 T1을 생성합니다.

T1 = T(rows,vars)
T1=19×3 table
                  Age    Height    Weight
                  ___    ______    ______
    Brown         49       64       119  
    Taylor        31       66       132  
    Anderson      45       68       128  
    Lee           44       66       146  
    Walker        28       65       123  
    Young         25       63       114  
    Campbell      37       65       135  
    Evans         39       62       121  
    Morris        43       64       135  
    Rivera        29       63       130  
    Richardson    30       67       141  
    Cox           28       66       111  
    Torres        45       70       137  
    Peterson      32       60       136  
    Ramirez       48       64       137  
    Bennett       35       64       131  
      ⋮

A는 19x3 테이블입니다.

순서형 categorical형 배열의 범주는 수학적인 순서를 가지고 있으므로 보다 큼 및 보다 작음과 같은 관계 연산을 사용하여 문자열에 대해 요소별 비교를 수행할 수 있습니다.

'Poor' 또는 'Fair'와 같이 건강 상태를 평가한 모든 환자의 성별, 연령, 키, 체중으로 구성된 하위 테이블 T2를 생성합니다.

먼저, 테이블 T2에 포함시킬 행의 서브셋을 정의합니다.

rows = T.SelfAssessedHealthStatus<='Fair';

그런 다음, 테이블 T2에 포함시킬 변수의 서브셋을 정의합니다.

vars = {'Gender','Age','Height','Weight'};

괄호를 사용하여 하위 테이블 T2를 생성합니다.

T2 = T(rows,vars)
T2=26×4 table
                 Gender    Age    Height    Weight
                 ______    ___    ______    ______
    Johnson      Male      43       69       163  
    Jones        Female    40       67       133  
    Thomas       Female    42       66       137  
    Jackson      Male      25       71       174  
    Garcia       Female    27       69       131  
    Rodriguez    Female    39       64       117  
    Lewis        Female    41       62       137  
    Lee          Female    44       66       146  
    Hall         Male      25       70       189  
    Hernandez    Male      36       68       166  
    Lopez        Female    40       66       137  
    Gonzalez     Female    35       66       118  
    Mitchell     Male      39       71       164  
    Campbell     Female    37       65       135  
    Parker       Male      30       68       182  
    Stewart      Male      49       68       170  
      ⋮

T2는 26x4 테이블입니다.

관련 예제

세부 정보