erasePunctuation
텍스트 및 문서에서 문장 부호 지우기
구문
설명
는 newDocuments
= erasePunctuation(documents
)documents
에서 문장 부호와 기호를 지웁니다. 문장 부호와 기호 문자를 지운 후 단어가 비어 있으면 함수가 이를 제거합니다. 토큰화된 문서 입력인 경우 함수는 'punctuation'
및 'other'
유형의 토큰에서 문장 부호를 지웁니다. 예를 들어 함수는 URL과 이메일 주소에서 문장 부호와 기호 문자를 지우지 않습니다.
는 지정된 토큰 유형에서만 문장 부호와 기호를 지웁니다.newDocuments
= erasePunctuation(documents
,'TokenTypes',types
)
예제
입력 인수
출력 인수
세부 정보
팁
string형 입력인 경우
erasePunctuation
은 URL 및 HTML 태그에서 문장 부호를 제거합니다. 이 동작으로 인해 함수eraseTags
,eraseURLs
및decodeHTMLEntities
가 예상대로 작동하지 않을 수 있습니다. 이들 함수를 사용하여 텍스트를 전처리하려면erasePunctuation
을 사용하기 전에 이들 함수를 사용하십시오.
참고 문헌
[1] Unicode Character Categories. https://www.fileformat.info/info/unicode/category/index.htm
버전 내역
R2017b에 개발됨참고 항목
decodeHTMLEntities
| eraseTags
| eraseURLs
| lower
| upper
| tokenizedDocument