Main Content

이 번역 페이지는 최신 내용을 담고 있지 않습니다. 최신 내용을 영문으로 보려면 여기를 클릭하십시오.

replace

문서 내 부분문자열 바꾸기

설명

예제

newDocuments = replace(documents,old,new)documents에 나오는 부분문자열 또는 패턴 old 모두를 new로 바꿉니다.

replace 함수를 사용하면 부분문자열 또는 패턴을 지정하여 문서 내 단어의 부분문자열을 바꿀 수 있습니다. 문서의 전체 단어와 n-gram을 바꾸려면 replaceWords 함수와 replaceNgrams 함수를 각각 사용하십시오.

예제

모두 축소

문서 배열 내 단어를 바꿉니다.

documents = tokenizedDocument([
    "an extreme example"
    "another extreme example"])
documents = 
  2x1 tokenizedDocument:

    3 tokens: an extreme example
    3 tokens: another extreme example

newDocuments = replace(documents,"example","sentence")
newDocuments = 
  2x1 tokenizedDocument:

    3 tokens: an extreme sentence
    3 tokens: another extreme sentence

단어의 부분문자열을 바꿉니다.

newDocuments = replace(documents,"ex","X-")
newDocuments = 
  2x1 tokenizedDocument:

    3 tokens: an X-treme X-ample
    3 tokens: another X-treme X-ample

숫자 패턴을 사용하여 문서에서 숫자를 제거합니다.

토큰화된 문서로 구성된 배열을 만듭니다.

textData = [
    "Text Analytics Toolbox provides over 50 functions to analyze text data."
    "The bm25Similarity function measures document similarity."];
documents = tokenizedDocument(textData);

replace 함수를 사용하여 연속 숫자가 나오는 부분을 토큰 "<NUMBER>"로 바꿉니다. digitsPattern 함수를 사용하여 숫자 패턴을 지정합니다.

pat = digitsPattern;
newDocuments = replace(documents,pat,"<NUMBER>")
newDocuments = 
  2x1 tokenizedDocument:

    12 tokens: Text Analytics Toolbox provides over <NUMBER> functions to analyze text data .
     7 tokens: The bm<NUMBER>Similarity function measures document similarity .

함수가 토큰 "bm25Similarity"에 있는 숫자를 바꾼 것을 알 수 있습니다.

숫자로만 구성된 토큰을 바꾸려면 replace 함수를 사용하고 텍스트 경계도 포함하는 패턴을 지정해야 합니다. textBoundary 함수를 사용하여 텍스트 경계를 지정합니다.

pat = textBoundary + digitsPattern + textBoundary;
newDocuments = replace(documents,pat,"<NUMBER>")
newDocuments = 
  2x1 tokenizedDocument:

    12 tokens: Text Analytics Toolbox provides over <NUMBER> functions to analyze text data .
     7 tokens: The bm25Similarity function measures document similarity .

이 경우 함수는 토큰 "bm25Similarity"에 있는 숫자를 바꾸지 않습니다.

입력 인수

모두 축소

입력 문서로, tokenizedDocument 배열로 지정됩니다.

바꿀 부분문자열 또는 패턴으로, 다음 중 하나로 지정됩니다.

  • string형 배열

  • 문자형 벡터

  • 문자형 벡터로 구성된 셀형 배열

  • pattern 배열

새 부분문자열로, string형 배열, 문자형 벡터 또는 문자형 벡터로 구성된 셀형 배열로 지정됩니다.

데이터형: string | char | cell

출력 인수

모두 축소

출력 문서로, tokenizedDocument 배열로 반환됩니다.

R2017b에 개발됨