erasePunctuation

텍스트 및 문서에서 문장 부호 지우기

페이지 내 모두 축소

구문

newStr = erasePunctuation(str)

newDocuments = erasePunctuation(documents)

newDocuments = erasePunctuation(documents,'TokenTypes',types)

설명

newStr = erasePunctuation(str)은 str의 요소에서 문장 부호와 기호를 지웁니다. 이 함수는 유니코드 문장 부호 또는 기호 클래스에 속하는 문자를 제거합니다.

예제

newDocuments = erasePunctuation(documents)는 documents에서 문장 부호와 기호를 지웁니다. 문장 부호와 기호 문자를 지운 후 단어가 비어 있으면 함수가 이를 제거합니다. 토큰화된 문서 입력인 경우 함수는 'punctuation' 및 'other' 유형의 토큰에서 문장 부호를 지웁니다. 예를 들어 함수는 URL과 이메일 주소에서 문장 부호와 기호 문자를 지우지 않습니다.

예제

newDocuments = erasePunctuation(documents,'TokenTypes',types)는 지정된 토큰 유형에서만 문장 부호와 기호를 지웁니다.

예제

모두 축소

텍스트에서 문장 부호 지우기

라이브 스크립트 열기

str의 텍스트에서 문장 부호를 지웁니다.

str = "it's one and/or two.";
newStr = erasePunctuation(str)

newStr = 
"its one andor two"

"/" 기호가 있는 위치에 공백을 삽입하기 위해 먼저 replace 함수를 사용합니다.

newStr = replace(str,"/"," ")

newStr = 
"it's one and or two."

newStr = erasePunctuation(newStr)

newStr = 
"its one and or two"

문서에서 문장 부호 지우기

라이브 스크립트 열기

문서로 구성된 배열에서 문장 부호를 지웁니다.

documents = tokenizedDocument([ ...
    "An example of a short sentence." 
    "Another example... with a URL: https://www.mathworks.com"])

documents = 
  2×1 tokenizedDocument:

     7 tokens: An example of a short sentence .
    10 tokens: Another example . . . with a URL : https://www.mathworks.com

newDocuments = erasePunctuation(documents)

newDocuments = 
  2×1 tokenizedDocument:

    6 tokens: An example of a short sentence
    6 tokens: Another example with a URL https://www.mathworks.com

여기서는 이 함수가 URL에서 문장 부호를 지우지 않습니다.

입력 인수

모두 축소

`str` — 입력 텍스트
string형 배열 | 문자형 벡터 | 문자형 벡터로 구성된 셀형 배열

입력 텍스트로, string형 배열, 문자형 벡터 또는 문자형 벡터로 구성된 셀형 배열로 지정됩니다.

예: ["An example of a short sentence."; "A second short sentence."]

데이터형: string | char | cell

`documents` — 입력 문서
`tokenizedDocument` 배열

입력 문서로, tokenizedDocument 배열로 지정됩니다.

`types` — 문장 부호를 지울 토큰 유형
`{'punctuation','other'}` (디폴트 값) | string형 배열 | 문자형 벡터 | 문자형 벡터로 구성된 셀형 배열

문장 부호를 지울 토큰 유형으로, 문자형 벡터나 string형 배열으로 지정되거나 하나 이상의 토큰 유형(사용자 지정 토큰 유형 포함)을 포함하는 문자형 벡터로 구성된 셀형 배열로 지정됩니다.

tokenizedDocument 및 addTypeDetails 함수는 다음 토큰 유형을 자동으로 검출합니다.

letters — 문자로만 구성된 문자열
digits — 숫자로만 구성된 문자열
punctuation — 문장 부호 및 기호 문자로만 구성된 문자열
email-address — 검출된 이메일 주소
web-address — 검출된 웹 주소
hashtag — 검출된 해시태그("#"으로 시작하고 뒤에 문자가 옴)
at-mention — 검출된 at-멘션("@" 문자로 시작하고 뒤에 1~15개의 ASCII 문자, 숫자 또는 밑줄 문자가 옴)
emoticon — 검출된 이모티콘
emoji — 검출된 이모지
other — 앞에서 언급한 유형에 속하지 않으며 사용자 지정 유형이 아닌 경우

토큰화할 때 자체 사용자 지정 토큰 유형을 지정하려면 tokenizedDocument에서 'CustomTokens' 또는 'RegularExpressions' 옵션을 사용합니다. 사용자 지정 토큰의 유형을 지정하지 않으면 해당 토큰 유형이 'custom'으로 설정됩니다.

데이터형: string | char | cell

출력 인수

모두 축소

`newStr` — 출력 텍스트
string형 배열 | 문자형 벡터 | 문자형 벡터로 구성된 셀형 배열

출력 텍스트로, string형 배열, 문자형 벡터 또는 문자형 벡터로 구성된 셀형 배열로 반환됩니다. str과 newStr은 데이터형이 동일합니다.

`newDocuments` — 출력 문서
`tokenizedDocument` 배열

출력 문서로, tokenizedDocument 배열로 반환됩니다.

세부 정보

모두 축소

유니코드 문자 범주

각 유니코드 문자에 범주가 할당되어 있습니다. 다음 테이블은 유니코드 문장 부호와 기호 범주를 요약해서 보여주며 각 범주의 예시 문자를 제공합니다.

범주	범주 코드	문자 수	예시 문자
문장 부호, 연결부호(Connector)	[Pc]	10	_
문장 부호, 대시	[Pd]	24	-
문장 부호, 닫는 괄호	[Pe]	73	)
문장 부호, 닫는 따옴표	[Pf]	10	”
문장 부호, 여는 따옴표	[Pi]	12	“
문장 부호, 기타	[Po]	566	!
문장 부호, 여는 괄호	[Ps]	75	(
기호, 통화	[Sc]	54	$
기호, 한정자	[Sk]	121	^
기호, 수학 연산	[Sm]	948	+
기호, 기타	[So]	5855	¦

자세한 내용은 [1] 항목을 참조하십시오.

팁

string형 입력인 경우 erasePunctuation은 URL 및 HTML 태그에서 문장 부호를 제거합니다. 이 동작으로 인해 함수 eraseTags, eraseURLs 및 decodeHTMLEntities가 예상대로 작동하지 않을 수 있습니다. 이들 함수를 사용하여 텍스트를 전처리하려면 erasePunctuation을 사용하기 전에 이들 함수를 사용하십시오.

참고 문헌

[1] Unicode Character Categories. https://www.fileformat.info/info/unicode/category/index.htm

버전 내역

R2017b에 개발됨

모두 확장

R2018b: `erasePunctuation`은 복합 토큰을 건너뜀

R2018b부터는 tokenizedDocument 입력에 대해 erasePunctuation이 기본적으로 'punctuation' 또는 'other' 유형의 토큰에서만 문장 부호와 기호를 지웁니다. 이 동작을 통해 함수가 URL 및 이메일 주소 등의 복합 토큰에 영향을 주는 것을 방지합니다.

이전 버전에서 erasePunctuation은 모든 토큰에서 문장 부호를 지웁니다. 이 동작을 재현하려면 'TokenTypes' 이름-값 쌍을 사용하십시오.

참고 항목

erasePunctuation

구문

설명

예제

텍스트에서 문장 부호 지우기

문서에서 문장 부호 지우기

입력 인수

str — 입력 텍스트 string형 배열 | 문자형 벡터 | 문자형 벡터로 구성된 셀형 배열

documents — 입력 문서 tokenizedDocument 배열

types — 문장 부호를 지울 토큰 유형 {'punctuation','other'} (디폴트 값) | string형 배열 | 문자형 벡터 | 문자형 벡터로 구성된 셀형 배열

출력 인수

newStr — 출력 텍스트 string형 배열 | 문자형 벡터 | 문자형 벡터로 구성된 셀형 배열

newDocuments — 출력 문서 tokenizedDocument 배열

세부 정보

유니코드 문자 범주

팁

참고 문헌

버전 내역

R2018b: erasePunctuation은 복합 토큰을 건너뜀

참고 항목

도움말 항목

`str` — 입력 텍스트
string형 배열 | 문자형 벡터 | 문자형 벡터로 구성된 셀형 배열

`documents` — 입력 문서
`tokenizedDocument` 배열

`types` — 문장 부호를 지울 토큰 유형
`{'punctuation','other'}` (디폴트 값) | string형 배열 | 문자형 벡터 | 문자형 벡터로 구성된 셀형 배열

`newStr` — 출력 텍스트
string형 배열 | 문자형 벡터 | 문자형 벡터로 구성된 셀형 배열

`newDocuments` — 출력 문서
`tokenizedDocument` 배열

R2018b: `erasePunctuation`은 복합 토큰을 건너뜀