replace
문서 내 부분문자열 바꾸기
설명
는 newDocuments
= replace(documents
,old
,new
)documents
에 나오는 부분문자열 또는 패턴 old
모두를 new
로 바꿉니다.
팁
replace
함수를 사용하면 부분문자열 또는 패턴을 지정하여 문서 내 단어의 부분문자열을 바꿀 수 있습니다. 문서의 전체 단어와 n-gram을 바꾸려면 replaceWords
함수와 replaceNgrams
함수를 각각 사용하십시오.
예제
문서 내 부분문자열 바꾸기
문서 배열 내 단어를 바꿉니다.
documents = tokenizedDocument([ "an extreme example" "another extreme example"])
documents = 2x1 tokenizedDocument: 3 tokens: an extreme example 3 tokens: another extreme example
newDocuments = replace(documents,"example","sentence")
newDocuments = 2x1 tokenizedDocument: 3 tokens: an extreme sentence 3 tokens: another extreme sentence
단어의 부분문자열을 바꿉니다.
newDocuments = replace(documents,"ex","X-")
newDocuments = 2x1 tokenizedDocument: 3 tokens: an X-treme X-ample 3 tokens: another X-treme X-ample
패턴을 사용하여 문서 내 부분문자열 바꾸기
숫자 패턴을 사용하여 문서에서 숫자를 제거합니다.
토큰화된 문서로 구성된 배열을 만듭니다.
textData = [ "Text Analytics Toolbox provides over 50 functions to analyze text data." "The bm25Similarity function measures document similarity."]; documents = tokenizedDocument(textData);
replace
함수를 사용하여 연속 숫자가 나오는 부분을 토큰 "<NUMBER>"
로 바꿉니다. digitsPattern
함수를 사용하여 숫자 패턴을 지정합니다.
pat = digitsPattern;
newDocuments = replace(documents,pat,"<NUMBER>")
newDocuments = 2x1 tokenizedDocument: 12 tokens: Text Analytics Toolbox provides over <NUMBER> functions to analyze text data . 7 tokens: The bm<NUMBER>Similarity function measures document similarity .
함수가 토큰 "bm25Similarity"
에 있는 숫자를 바꾼 것을 알 수 있습니다.
숫자로만 구성된 토큰을 바꾸려면 replace
함수를 사용하고 텍스트 경계도 포함하는 패턴을 지정해야 합니다. textBoundary
함수를 사용하여 텍스트 경계를 지정합니다.
pat = textBoundary + digitsPattern + textBoundary;
newDocuments = replace(documents,pat,"<NUMBER>")
newDocuments = 2x1 tokenizedDocument: 12 tokens: Text Analytics Toolbox provides over <NUMBER> functions to analyze text data . 7 tokens: The bm25Similarity function measures document similarity .
이 경우 함수는 토큰 "bm25Similarity"
에 있는 숫자를 바꾸지 않습니다.
입력 인수
documents
— 입력 문서
tokenizedDocument
배열
입력 문서로, tokenizedDocument
배열로 지정됩니다.
old
— 바꿀 부분문자열 또는 패턴
string형 배열 | 문자형 벡터 | 문자형 벡터로 구성된 셀형 배열 | pattern
배열
new
— 새 부분문자열
string형 배열 | 문자형 벡터 | 문자형 벡터로 구성된 셀형 배열
새 부분문자열로, string형 배열, 문자형 벡터 또는 문자형 벡터로 구성된 셀형 배열로 지정됩니다.
데이터형: string
| char
| cell
출력 인수
newDocuments
— 출력 문서
tokenizedDocument
배열
출력 문서로, tokenizedDocument
배열로 반환됩니다.
버전 내역
R2017b에 개발됨
MATLAB 명령
다음 MATLAB 명령에 해당하는 링크를 클릭했습니다.
명령을 실행하려면 MATLAB 명령 창에 입력하십시오. 웹 브라우저는 MATLAB 명령을 지원하지 않습니다.
Select a Web Site
Choose a web site to get translated content where available and see local events and offers. Based on your location, we recommend that you select: .
You can also select a web site from the following list:
How to Get Best Site Performance
Select the China site (in Chinese or English) for best site performance. Other MathWorks country sites are not optimized for visits from your location.
Americas
- América Latina (Español)
- Canada (English)
- United States (English)
Europe
- Belgium (English)
- Denmark (English)
- Deutschland (Deutsch)
- España (Español)
- Finland (English)
- France (Français)
- Ireland (English)
- Italia (Italiano)
- Luxembourg (English)
- Netherlands (English)
- Norway (English)
- Österreich (Deutsch)
- Portugal (English)
- Sweden (English)
- Switzerland
- United Kingdom (English)