예제 데이터를 불러옵니다. 파일 sonnetsPreprocessed.txt에는 셰익스피어 소네트의 전처리된 버전이 들어 있습니다. 파일에는 한 줄에 하나씩 소네트가 들어 있으며 단어가 공백으로 구분되어 있습니다. sonnetsPreprocessed.txt에서 텍스트를 추출하고, 추출한 텍스트를 새 줄 문자에서 문서로 분할한 후 그 문서를 토큰화합니다.
예제 데이터를 불러옵니다. 파일 sonnetsPreprocessed.txt에는 셰익스피어 소네트의 전처리된 버전이 들어 있습니다. 파일에는 한 줄에 하나씩 소네트가 들어 있으며 단어가 공백으로 구분되어 있습니다. sonnetsPreprocessed.txt에서 텍스트를 추출하고, 추출한 텍스트를 새 줄 문자에서 문서로 분할한 후 그 문서를 토큰화합니다.
제거할 n-gram으로, string형 배열, 문자형 벡터 또는 문자형 벡터로 구성된 셀형 배열로 지정됩니다.
ngrams가 string형 배열 또는 셀형 배열인 경우 크기는 NumNgrams×maxN입니다. 여기서 NumNgrams는 n-gram의 개수이고, maxN은 가장 큰 n-gram의 길이입니다. ngrams가 문자형 벡터인 경우 이는 단일 단어(유니그램(unigram))를 나타냅니다.
ngrams(i,j)의 값은 i번째 n-gram 중 j번째 단어입니다. i번째 n-gram의 단어 수가 maxN보다 작은 경우 ngrams의 i번째 행의 나머지 요소는 비어 있습니다.
예: ["An" ""; "An example"; "example" ""]
데이터형: string | char | cell
제거할 n-gram의 인덱스로, 숫자형 인덱스로 구성된 벡터 또는 논리형 인덱스로 구성된 벡터로 지정됩니다. idx의 인덱스는 bag.Ngrams의 행에 해당합니다.