Main Content

containsNgrams

n-gram이 문서에 포함되었는지 검사

R2022a 이후

    설명

    예제

    tf = containsNgrams(documents,ngrams)documents의 n-gram이 ngrams와 일치하는 경우 1을 반환하고, 그 외의 경우에는 0을 반환합니다.

    tf = containsNgrams(documents,ngrams,IgnoreCase=flag)는 n-gram을 검사할 때 대/소문자를 무시할지 여부도 지정합니다.

    예제

    모두 축소

    토큰화된 문서로 구성된 배열을 만듭니다.

    documents = tokenizedDocument([
        "an example of a short sentence" 
        "a second short sentence"]);

    n-gram ["a" "short"]가 포함된 문서를 검사합니다.

    tf = containsNgrams(documents,["a" "short"])
    tf = 2x1 logical array
    
       1
       0
    
    

    입력 인수

    모두 축소

    입력 문서로, tokenizedDocument 배열로 지정됩니다.

    검사할 n-gram으로, 다음 값 중 하나로 지정됩니다.

    • string형 배열

    • 문자형 벡터

    • 문자형 벡터로 구성된 셀형 배열

    • pattern 배열

    ngrams가 string형 배열, 셀형 배열 또는 pattern 배열인 경우 크기는 numNgrams×maxN입니다. 여기서 numNgrams는 n-gram의 개수이고, maxN은 가장 큰 n-gram의 길이입니다. ngrams가 문자형 벡터인 경우 이는 단일 단어(유니그램(unigram))를 나타냅니다.

    ngrams(i,j)의 값은 i번째 n-gram 중 j번째 단어에 해당합니다. i번째 n-gram의 단어 수가 maxN보다 작은 경우 ngramsi번째 행의 나머지 요소는 비어 있어야 합니다.

    ngrams에 여러 개의 n-gram 또는 패턴이 포함된 경우 함수는 대응되는 문서에 해당 n-gram이 하나라도 나타나면 1을 반환합니다.

    예: ["An" ""; "An example"; "example" ""]

    데이터형: string | char | cell

    대/소문자를 무시하는 옵션으로, 다음 값 중 하나로 지정됩니다.

    • 0 (false) – 대/소문자만 다른 일치 항목 후보를 일치하지 않는 것으로 처리합니다.

    • 1 (true) – 대/소문자만 다른 일치 항목 후보를 일치하는 것으로 처리합니다.

    데이터형: single | double | int8 | int16 | int32 | int64 | uint8 | uint16 | uint32 | uint64 | logical

    버전 내역

    R2022a에 개발됨