Main Content

erasePunctuation

텍스트 및 문서에서 문장 부호 지우기

설명

newStr = erasePunctuation(str)str의 요소에서 문장 부호와 기호를 지웁니다. 이 함수는 유니코드 문장 부호 또는 기호 클래스에 속하는 문자를 제거합니다.

예제

newDocuments = erasePunctuation(documents)documents에서 문장 부호와 기호를 지웁니다. 문장 부호와 기호 문자를 지운 후 단어가 비어 있으면 함수가 이를 제거합니다. 토큰화된 문서 입력인 경우 함수는 'punctuation''other' 유형의 토큰에서 문장 부호를 지웁니다. 예를 들어 함수는 URL과 이메일 주소에서 문장 부호와 기호 문자를 지우지 않습니다.

예제

newDocuments = erasePunctuation(documents,'TokenTypes',types)는 지정된 토큰 유형에서만 문장 부호와 기호를 지웁니다.

예제

예제

모두 축소

str의 텍스트에서 문장 부호를 지웁니다.

str = "it's one and/or two.";
newStr = erasePunctuation(str)
newStr = 
"its one andor two"

"/" 기호가 있는 위치에 공백을 삽입하기 위해 먼저 replace 함수를 사용합니다.

newStr = replace(str,"/"," ")
newStr = 
"it's one and or two."
newStr = erasePunctuation(newStr)
newStr = 
"its one and or two"

문서로 구성된 배열에서 문장 부호를 지웁니다.

documents = tokenizedDocument([ ...
    "An example of a short sentence." 
    "Another example... with a URL: https://www.mathworks.com"])
documents = 
  2x1 tokenizedDocument:

     7 tokens: An example of a short sentence .
    10 tokens: Another example . . . with a URL : https://www.mathworks.com

newDocuments = erasePunctuation(documents)
newDocuments = 
  2x1 tokenizedDocument:

    6 tokens: An example of a short sentence
    6 tokens: Another example with a URL https://www.mathworks.com

여기서는 이 함수가 URL에서 문장 부호를 지우지 않습니다.

입력 인수

모두 축소

입력 텍스트로, string형 배열, 문자형 벡터 또는 문자형 벡터로 구성된 셀형 배열로 지정됩니다.

예: ["An example of a short sentence."; "A second short sentence."]

데이터형: string | char | cell

입력 문서로, tokenizedDocument 배열로 지정됩니다.

문장 부호를 지울 토큰 유형으로, 문자형 벡터나 string형 배열으로 지정되거나 하나 이상의 토큰 유형(사용자 지정 토큰 유형 포함)을 포함하는 문자형 벡터로 구성된 셀형 배열로 지정됩니다.

tokenizedDocumentaddTypeDetails 함수는 다음 토큰 유형을 자동으로 검출합니다.

  • letters — 문자로만 구성된 문자열

  • digits — 숫자로만 구성된 문자열

  • punctuation — 문장 부호 및 기호 문자로만 구성된 문자열

  • email-address — 검출된 이메일 주소

  • web-address — 검출된 웹 주소

  • hashtag — 검출된 해시태그("#"으로 시작하고 뒤에 문자가 옴)

  • at-mention — 검출된 at-멘션("@" 문자로 시작하고 뒤에 1~15개의 ASCII 문자, 숫자 또는 밑줄 문자가 옴)

  • emoticon — 검출된 이모티콘

  • emoji — 검출된 이모지

  • other — 앞에서 언급한 유형에 속하지 않으며 사용자 지정 유형이 아닌 경우

토큰화할 때 자체 사용자 지정 토큰 유형을 지정하려면 tokenizedDocument에서 'CustomTokens' 또는 'RegularExpressions' 옵션을 사용합니다. 사용자 지정 토큰의 유형을 지정하지 않으면 해당 토큰 유형이 'custom'으로 설정됩니다.

데이터형: string | char | cell

출력 인수

모두 축소

출력 텍스트로, string형 배열, 문자형 벡터 또는 문자형 벡터로 구성된 셀형 배열로 반환됩니다. strnewStr은 데이터형이 동일합니다.

출력 문서로, tokenizedDocument 배열로 반환됩니다.

세부 정보

모두 축소

유니코드 문자 범주

각 유니코드 문자에 범주가 할당되어 있습니다. 다음 테이블은 유니코드 문장 부호와 기호 범주를 요약해서 보여주며 각 범주의 예시 문자를 제공합니다.

범주범주 코드문자 수예시 문자
문장 부호, 연결부호(Connector)[Pc]10_
문장 부호, 대시[Pd]24-
문장 부호, 닫는 괄호[Pe]73)
문장 부호, 닫는 따옴표[Pf]10
문장 부호, 여는 따옴표[Pi]12
문장 부호, 기타[Po]566!
문장 부호, 여는 괄호[Ps]75(
기호, 통화[Sc]54$
기호, 한정자[Sk]121^
기호, 수학 연산[Sm]948+
기호, 기타[So]5855¦

자세한 내용은 [1] 항목을 참조하십시오.

  • string형 입력인 경우 erasePunctuation은 URL 및 HTML 태그에서 문장 부호를 제거합니다. 이 동작으로 인해 함수 eraseTags, eraseURLsdecodeHTMLEntities가 예상대로 작동하지 않을 수 있습니다. 이들 함수를 사용하여 텍스트를 전처리하려면 erasePunctuation을 사용하기 전에 이들 함수를 사용하십시오.

참고 문헌

버전 내역

R2017b에 개발됨

모두 확장