containsNgrams

n-gram이 문서에 포함되었는지 검사

R2022a 이후

페이지 내 모두 축소

구문

tf = containsNgrams(documents,ngrams)

tf = containsNgrams(documents,ngrams,IgnoreCase=flag)

설명

tf = containsNgrams(documents,ngrams)는 documents의 n-gram이 ngrams와 일치하는 경우 1을 반환하고, 그 외의 경우에는 0을 반환합니다.

예제

tf = containsNgrams(documents,ngrams,IgnoreCase=flag)는 n-gram을 검사할 때 대/소문자를 무시할지 여부도 지정합니다.

예제

모두 축소

n-gram이 문서에 포함되었는지 검사하기

라이브 스크립트 열기

토큰화된 문서로 구성된 배열을 만듭니다.

documents = tokenizedDocument([
    "an example of a short sentence" 
    "a second short sentence"]);

n-gram ["a" "short"]가 포함된 문서를 검사합니다.

tf = containsNgrams(documents,["a" "short"])

tf = 2×1 logical array

   1
   0

입력 인수

모두 축소

`documents` — 입력 문서
`tokenizedDocument` 배열

입력 문서로, tokenizedDocument 배열로 지정됩니다.

`ngrams` — 검사할 n-gram
string형 배열 | 문자형 벡터 | 문자형 벡터로 구성된 셀형 배열 | `pattern` 배열

검사할 n-gram으로, 다음 값 중 하나로 지정됩니다.

string형 배열
문자형 벡터
문자형 벡터로 구성된 셀형 배열
pattern 배열

ngrams가 string형 배열, 셀형 배열 또는 pattern 배열인 경우 크기는 numNgrams×maxN입니다. 여기서 numNgrams는 n-gram의 개수이고, maxN은 가장 큰 n-gram의 길이입니다. ngrams가 문자형 벡터인 경우 이는 단일 단어(유니그램(unigram))를 나타냅니다.

ngrams(i,j)의 값은 i번째 n-gram 중 j번째 단어에 해당합니다. i번째 n-gram의 단어 수가 maxN보다 작은 경우 ngrams의 i번째 행의 나머지 요소는 비어 있어야 합니다.

ngrams에 여러 개의 n-gram 또는 패턴이 포함된 경우 함수는 대응되는 문서에 해당 n-gram이 하나라도 나타나면 1을 반환합니다.

예: ["An" ""; "An example"; "example" ""]

데이터형: string | char | cell

`flag` — 대/소문자를 무시하는 옵션
`0` (`false`) (디폴트 값) | `1` (`true`)

대/소문자를 무시하는 옵션으로, 다음 값 중 하나로 지정됩니다.

0 (false) – 대/소문자만 다른 일치 항목 후보를 일치하지 않는 것으로 처리합니다.
1 (true) – 대/소문자만 다른 일치 항목 후보를 일치하는 것으로 처리합니다.

버전 내역

R2022a에 개발됨

참고 항목

containsNgrams

구문

설명

예제

n-gram이 문서에 포함되었는지 검사하기

입력 인수

documents — 입력 문서 tokenizedDocument 배열

ngrams — 검사할 n-gram string형 배열 | 문자형 벡터 | 문자형 벡터로 구성된 셀형 배열 | pattern 배열

flag — 대/소문자를 무시하는 옵션 0 (false) (디폴트 값) | 1 (true)

버전 내역

참고 항목

도움말 항목

`documents` — 입력 문서
`tokenizedDocument` 배열

`ngrams` — 검사할 n-gram
string형 배열 | 문자형 벡터 | 문자형 벡터로 구성된 셀형 배열 | `pattern` 배열

`flag` — 대/소문자를 무시하는 옵션
`0` (`false`) (디폴트 값) | `1` (`true`)