Main Content

replaceNgrams

문서 내 n-gram 바꾸기

설명

예제

newDocuments = replaceNgrams(documents,oldNgrams,newNgrams)는 n-gram oldNgramsnewNgrams의 상응하는 n-gram으로 바꿔서 지정된 문서를 업데이트합니다. 이 함수는 기본적으로 대/소문자를 구분합니다.

newDocuments = replaceNgrams(documents,oldNgrams,newNgrams,'IgnoreCase',true)는 대/소문자를 구분하지 않고 n-gram oldNgrams를 바꿉니다.

예제

모두 축소

replaceNgrams 함수를 사용하여 약어를 그에 해당하는 확장 형태로 바꿉니다.

토큰화된 문서로 구성된 배열을 만듭니다.

str = [ ...
    "Currently in Cambridge, MA."
    "Next stop, NY!"];
documents = tokenizedDocument(str)
documents = 
  2x1 tokenizedDocument:

    6 tokens: Currently in Cambridge , MA .
    5 tokens: Next stop , NY !

토큰 "MA""NY"를 각각 "Massachusetts"["New" "York"]으로 바꿉니다. n-gram의 길이가 서로 다른 경우 행을 빈 문자열 ""로 채워야 합니다. 이 경우에는 "Massachusetts" 행을 단일 빈 문자열 ""로 채워야 합니다.

oldNgrams = [
    "MA"
    "NY"];
newNgrams = [
    "Massachusetts" ""
    "New" "York"];
documents = replaceNgrams(documents,oldNgrams,newNgrams)
documents = 
  2x1 tokenizedDocument:

    6 tokens: Currently in Cambridge , Massachusetts .
    6 tokens: Next stop , New York !

입력 인수

모두 축소

입력 문서로, tokenizedDocument 배열로 지정됩니다.

바꿀 n-gram으로, string형 배열, 문자형 벡터 또는 문자형 벡터로 구성된 셀형 배열로 지정됩니다.

oldNgrams가 string형 배열 또는 셀형 배열인 경우 크기는 NumNgrams×maxN입니다. 여기서 NumNgrams는 n-gram의 개수이고, maxN은 가장 큰 n-gram의 길이입니다. oldNgrams가 문자형 벡터인 경우 이는 단일 단어(유니그램(unigram))를 나타냅니다.

oldNgrams(i,j)의 값은 i번째 n-gram 중 j번째 단어입니다. i번째 n-gram의 단어 수가 maxN보다 작은 경우 oldNgramsi번째 행의 나머지 요소는 빈 문자열 ""로 채워져야 합니다.

예를 들어, 유니그램 "Massachusetts"와 바이그램(bigram) ["New" "York"]을 모두 지정하려면 2×2 string형 배열 ["Massachusetts" ""; "New" "York"]을 지정해야 합니다. 여기서 "Massachusetts" 행은 단일 빈 문자열 ""로 채워집니다.

데이터형: string | char | cell

새 n-gram으로, string형 배열, 문자형 벡터 또는 문자형 벡터로 구성된 셀형 배열로 지정됩니다.

newNgrams가 string형 배열 또는 셀형 배열인 경우 크기는 NumNgrams×maxN입니다. 여기서 NumNgrams는 n-gram의 개수이고, maxN은 가장 큰 n-gram의 길이입니다. newNgrams가 문자형 벡터인 경우 이는 단일 단어(유니그램(unigram))를 나타냅니다.

newNgrams(i,j)의 값은 i번째 n-gram 중 j번째 단어입니다. i번째 n-gram의 단어 수가 maxN보다 작은 경우 newNgramsi번째 행의 나머지 요소는 비어 있습니다.

newNgrams는 행을 한 개 갖거나 oldNgrams와 동일한 수의 행을 가져야 합니다.

예를 들어, 유니그램 "Massachusetts"와 바이그램(bigram) ["New" "York"]을 모두 지정하려면 2×2 string형 배열 ["Massachusetts" ""; "New" "York"]을 지정해야 합니다. 여기서 "Massachusetts" 행은 단일 빈 문자열 ""로 채워집니다.

데이터형: string | char | cell

출력 인수

모두 축소

출력 문서로, tokenizedDocument 배열로 반환됩니다.

버전 내역

R2019a에 개발됨