Main Content

이 번역 페이지는 최신 내용을 담고 있지 않습니다. 최신 내용을 영문으로 보려면 여기를 클릭하십시오.

characterCategories

유니코드 문자 범주

R2021a 이후

    설명

    예제

    ucats = characterCategories(str32)UTF32 객체 str의 문자에 대한 유니코드 문자 대분류를 반환합니다.

    예제

    ucats = characterCategories(str32,'Granularity',granularity)는 반환되는 범주의 세분성도 지정합니다. 예를 들어, characterCategories(str32,'Granularity','detailed')은 유니코드 문자 소분류를 반환합니다.

    예제

    모두 축소

    textanalytics.unicode.UTF32 함수를 사용하여 문자열 "Hello! 😀"를 유니코드 UTF-32 문자열 표현으로 변환합니다.

    str = "Hello! 😀";
    str32 = textanalytics.unicode.UTF32(str)
    str32 = 
      UTF32 with properties:
    
        Data: [72 101 108 108 111 33 32 128512]
    
    

    characterCategories 함수를 사용하여 str32의 유니코드 문자 범주를 가져옵니다.

    ucats = characterCategories(str32)
    ucats = 1x1 cell array
        {[L    L    L    L    L    P    Z    S]}
    
    

    유니코드 문자 범주 "L", "P", "Z", "S"는 각각 "letter", "punctuation", "separator", "symbol"에 해당합니다.

    textanalytics.unicode.UTF32 함수를 사용하여 문자열 "Hello! 😀"를 유니코드 UTF-32 문자열 표현으로 변환합니다.

    str = "Hello! 😀";
    str32 = textanalytics.unicode.UTF32(str)
    str32 = 
      UTF32 with properties:
    
        Data: [72 101 108 108 111 33 32 128512]
    
    

    characterCategories 함수를 사용하여 str32의 유니코드 문자 범주를 가져옵니다. 유니코드 문자 소분류를 반환하려면 'Granularity' 옵션을 'detailed'로 설정하십시오.

    ucats = characterCategories(str32,'Granularity','detailed')
    ucats = 1x1 cell array
        {[Lu    Ll    Ll    Ll    Ll    Po    Zs    So]}
    
    

    유니코드 문자 범주 "Lu", "Ll", "Po", "Zs", "So"는 각각 "uppercase letter", "lowercase letter", "other punctuation", "space separator", "other symbol"에 해당합니다.

    입력 인수

    모두 축소

    UTF-32 문자열 표현으로, UTF32 배열로 지정됩니다.

    반환된 유니코드 문자 범주의 세분성으로, 다음 중 하나로 지정됩니다.

    • 'major' – 유니코드 문자 대분류를 반환합니다. 여기에는 유니코드 문자 범주의 첫 번째 문자만 포함됩니다.

    • 'detailed' - 유니코드 문자 소분류를 반환합니다. 여기에는 유니코드 문자 범주의 모든 문자가 포함됩니다.

    출력 인수

    모두 축소

    유니코드 문자 범주로, categorical형 벡터로 구성된 셀형 배열로 반환됩니다.

    다음 표에는 유니코드 문자 대분류와 소분류가 나와 있습니다. 반환할 유니코드 문자 범주의 세분성을 지정하려면 Granularity 옵션을 사용합니다.

    문자 대분류문자 대분류 설명문자 소분류문자 소분류 설명
    LLetterLuUppercase letter
    LlLowercase letter
    LtTitlecase letter
    LmModifier letter
    LoOther letter
    MMarkMnNonspacing mark
    McSpacing mark
    MeEnclosing mark
    NNumberNdDecimal number
    NlLetter number
    NoOther number
    PPunctuationPcConnector punctuation
    PdDash punctuation
    PsOpen punctuation
    PeClose punctuation
    PiInitial punctuation
    PfFinal punctuation
    PoOther punctuation
    SSymbolSmMath symbol
    ScCurrency symbol
    SkModifier symbol
    SoOther symbol
    ZSeparatorZsSpace separator
    ZlLine separator
    ZpParagraph separator
    COtherCcControl
    CfFormat
    CsSurrogate
    CoPrivate use
    CnUnassigned

    참고 문헌

    [1] Unicode® Standard Annex #44 Unicode Character Database https://www.unicode.org/reports/tr44/

    버전 내역

    R2021a에 개발됨