Main Content

textanalytics.unicode.UTF32

유니코드 UTF-32 문자열 표현

R2021a 이후

    설명

    32비트 유니코드 변환 형식(UTF-32)은 코드 포인트당 정확히 32비트를 사용하는 고정 길이 유니코드 코드 포인트 인코딩입니다.

    생성

    설명

    예제

    str32 = textanalytics.unicode.UTF32(str)str의 유니코드 UTF-32 표현을 반환합니다. str이 배열인 경우 str32(i)는 문자열 str(i)의 유니코드 UTF-32 표현입니다.

    입력 인수

    모두 확장

    입력 텍스트로, string형 배열, 문자형 벡터 또는 문자형 벡터로 구성된 셀형 배열로 지정됩니다.

    예: ["An example of a short sentence."; "A second short sentence."]

    데이터형: string | char | cell

    속성

    모두 확장

    UTF-32 코드 포인트로, uint32 유형의 정수 벡터로 지정됩니다.

    입력 문자열에 대리 쌍(surrogate pair)이 포함되어 있으면 이에 해당하는 코드 포인트 목록은 길이가 다릅니다.

    데이터형: uint32

    객체 함수

    characterCategories유니코드 문자 범주
    hexUTF-32 표현을 16진수 값으로 변환
    stringUTF-32 표현을 string형으로 변환하기

    예제

    모두 축소

    textanalytics.unicode.UTF32 함수를 사용하여 문자열 "Hello! 😀"를 유니코드 UTF-32 문자열 표현으로 변환합니다.

    str = "Hello! 😀";
    str32 = textanalytics.unicode.UTF32(str)
    str32 = 
      UTF32 with properties:
    
        Data: [72 101 108 108 111 33 32 128512]
    
    

    textanalytics.unicode.UTF32 함수를 사용하여 문자열 "Hello! 😀"를 유니코드 UTF-32 문자열 표현으로 변환합니다.

    str = "Hello! 😀";
    str32 = textanalytics.unicode.UTF32(str)
    str32 = 
      UTF32 with properties:
    
        Data: [72 101 108 108 111 33 32 128512]
    
    

    characterCategories 함수를 사용하여 str32의 유니코드 문자 범주를 가져옵니다.

    ucats = characterCategories(str32)
    ucats = 1x1 cell array
        {[L    L    L    L    L    P    Z    S]}
    
    

    유니코드 문자 범주 "L", "P", "Z", "S"는 각각 "letter", "punctuation", "separator", "symbol"에 해당합니다.

    textanalytics.unicode.UTF32 함수를 사용하여 문자열 "Hello! 😀"를 유니코드 UTF-32 문자열 표현으로 변환합니다.

    str = "Hello! 😀";
    str32 = textanalytics.unicode.UTF32(str)
    str32 = 
      UTF32 with properties:
    
        Data: [72 101 108 108 111 33 32 128512]
    
    

    characterCategories 함수를 사용하여 str32의 유니코드 문자 범주를 가져옵니다. 유니코드 문자 소분류를 반환하려면 'Granularity' 옵션을 'detailed'로 설정하십시오.

    ucats = characterCategories(str32,'Granularity','detailed')
    ucats = 1x1 cell array
        {[Lu    Ll    Ll    Ll    Ll    Po    Zs    So]}
    
    

    유니코드 문자 범주 "Lu", "Ll", "Po", "Zs", "So"는 각각 "uppercase letter", "lowercase letter", "other punctuation", "space separator", "other symbol"에 해당합니다.

    textanalytics.unicode.UTF32 함수를 사용하여 문자열 "Hello! 😀"를 유니코드 UTF-32 문자열 표현으로 변환합니다.

    str = "Hello! 😀";
    str32 = textanalytics.unicode.UTF32(str)
    str32 = 
      UTF32 with properties:
    
        Data: [72 101 108 108 111 33 32 128512]
    
    

    hex 함수를 사용하여 str32를 16진수 값으로 변환합니다.

    hexStr = hex(str32)
    hexStr = 
    " 0048  0065  006C  006C  006F  0021  0020 1F600"
    

    textanalytics.unicode.UTF32 함수를 사용하여 문자열 "Hello! 😀"를 유니코드 UTF-32 문자열 표현으로 변환합니다.

    str = "Hello! 😀";
    str32 = textanalytics.unicode.UTF32(str)
    str32 = 
      UTF32 with properties:
    
        Data: [72 101 108 108 111 33 32 128512]
    
    

    string 함수를 사용하여 str32를 string형으로 변환합니다.

    str = string(str32)
    str = 
    "Hello! 😀"
    

    참고 문헌

    [1] Unicode Standard Annex #19 UTF-32 https://www.unicode.org/reports/tr19/tr19-9.html

    버전 내역

    R2021a에 개발됨