이 페이지의 내용은 이전 릴리스에 관한 것입니다. 해당 영문 페이지는 최신 릴리스에서 제거되었습니다.
텍스트 분석 용어집
이 섹션에는 텍스트 분석에 사용되는 용어가 나열되어 있습니다.
문서 및 토큰
용어 | 정의 | 추가 정보 |
---|---|---|
바이그램(bigram) | 연속된 두 개의 토큰. 예를 들어 ["New" "York"] 이 이에 해당됩니다. | bagOfNgrams |
복합 토큰 | 복잡한 구조로 된 토큰. 예를 들어 이메일 주소, 해시 태그 등이 있습니다. | tokenDetails |
문맥 | 주어진 한 토큰의 주변에 있는 다른 토큰이나 문자. | context |
말뭉치 | 문서 모음. | tokenizedDocument |
문서 | 하나의 텍스트 데이터 관측값. 예를 들어 보고서, 트윗, 기사 등이 있습니다. | tokenizedDocument |
문자소 | 사람이 읽을 수 있는 문자. 문자소는 여러 개의 유니코드 코드 포인트로 구성될 수 있습니다. 예를 들어 "a", "😎" 또는 "語" 등이 있습니다. | splitGraphemes |
n-gram | 연속된 N개의 토큰. | bagOfNgrams |
품사 | 문법 구조에 사용된 단어의 범주. 예를 들어 "명사", "동사", "형용사" 등이 있습니다. | addPartOfSpeechDetails |
토큰 | 한 단위의 텍스트 데이터를 나타내는 문자로 구성된 문자열. "유니그램(unigram)"이라고도 합니다. 예를 들어 단어, 숫자, 이메일 주소 등이 있습니다. | tokenizedDocument |
토큰 세부 정보 | 토큰에 대한 정보. 예를 들어 유형, 언어, 품사 정보 등이 있습니다. | tokenDetails |
토큰 유형 | 토큰의 범주. 예를 들어 "문자", "문장 부호", "이메일 주소" 등이 있습니다. | tokenDetails |
토큰화된 문서 | 토큰으로 분할된 문서. | tokenizedDocument |
트라이그램(trigram) | 연속된 세 개의 토큰. 예를 들어 ["The" "United" "States"] 가 이에 해당됩니다. | bagOfNgrams |
단어집 | 말뭉치 또는 모델 내에서 고유한 단어 또는 토큰. | tokenizedDocument |
전처리
용어 | 정의 | 추가 정보 |
---|---|---|
정규화 | 단어를 원형(root form)으로 줄입니다. 예를 들어, 어간 추출 또는 표제어 추출을 사용하여 단어 "walking"을 "walk"로 줄이는 경우가 이에 해당됩니다. | normalizeWords |
표제어 추출 | 단어를 사전에 등재된 단어(표제어 형태)로 줄입니다. 예를 들어, 단어 "running"과 "ran"을 "run"으로 줄이는 경우가 이에 해당됩니다. | normalizeWords |
어간 추출 | 굴절 형태를 제거하여 단어를 줄입니다. 줄인 단어가 반드시 실재하는 단어는 아닙니다. 예를 들어, Porter 어간 추출기는 단어 "happy"와 "happiest"를 "happi"로 줄입니다. | normalizeWords |
불용어 | 흔히 분석 전에 제거되는 단어. 예를 들어 "and", "of", "the" 등이 있습니다. | removeStopWords |
모델링 및 예측
Bag-of-Words
용어 | 정의 | 추가 정보 |
---|---|---|
Bag-of-n-grams 모델 | n-gram이 말뭉치의 각 문서에서 나타나는 횟수를 기록하는 모델. | bagOfNgrams |
Bag-of-words 모델 | 단어가 문서 모음의 각 문서에서 나타나는 횟수를 기록하는 모델. | bagOfWords |
단어 빈도 행렬 | 지정된 단어집에 대응하는 단어가 문서의 모음에서 발생하는 빈도 수로 구성된 행렬. 이 행렬은 bag-of-words 모델의 기저 데이터입니다. | bagOfWords |
TF-IDF(단어 빈도-역 문서 빈도) 행렬 | 문서 내의 단어 빈도 수와 말뭉치 내의 단어를 포함하는 문서의 비율에 따른 통계적 측정값. | tfidf |
LDA(잠재 디리클레 할당)
용어 | 정의 | 추가 정보 |
---|---|---|
말뭉치 토픽 확률 | LDA 모델을 피팅하는 데 사용되는 말뭉치에서 각 토픽을 관측하게 될 확률. | ldaModel |
문서 토픽 확률 | LDA 모델을 피팅하는 데 사용되는 각 문서에서 각 토픽을 관측하게 될 확률. 또는 훈련 문서의 토픽 혼합. | ldaModel |
LDA(잠재 디리클레 할당) | 문서 내 토픽 확률과 토픽 내 단어 확률을 추정하는 생성적 통계 토픽 모델. | fitlda |
혼잡도(perplexity) | 모델이 지정된 데이터를 얼마나 잘 설명하는지를 나타내는 통계적 측정값. 혼잡도가 낮을수록 더 적합한 피팅임을 나타냅니다. | logp |
토픽 | 단어의 분포. "토픽 단어 확률"로 나타납니다. | ldaModel |
토픽 집중도 | 말뭉치 토픽 혼합의 기본 디리클레 분포와 관련된 집중도 파라미터. | ldaModel |
토픽 혼합 | 지정된 문서 내 토픽 확률. | transform |
토픽 단어 확률 | 지정된 토픽 내 단어 확률. | ldaModel |
단어 집중도 | 토픽의 기본 디리클레 분포와 관련된 집중도 파라미터. | ldaModel |
LSA(잠재 의미 분석)
단어 임베딩
용어 | 정의 | 추가 정보 |
---|---|---|
단어 임베딩 | 단어집의 단어를 실수형 벡터로 매핑하는 모델(word2vec, GloVe 및 fastText 라이브러리를 통해 대중화됨). | wordEmbedding |
단어 임베딩 계층 | 훈련 동안 단어 임베딩을 학습하는 딥러닝 신경망 계층. | wordEmbeddingLayer |
단어 인코딩 | 단어를 숫자형 인덱스로 매핑하는 모델. | wordEncoding |
시각화
용어 | 정의 | 추가 정보 |
---|---|---|
텍스트 산점도 플롯 | 지정된 좌표에 마커 대신에 단어가 플로팅된 산점도 플롯. | textscatter |
워드 클라우드 | 숫자형 데이터(대개 빈도 수)에 해당하는 크기로 단어를 표시하는 차트. | wordcloud |
참고 항목
tokenizedDocument
| tokenDetails
| addPartOfSpeechDetails
| removeStopWords
| normalizeWords
| bagOfWords
| fitlda
| wordEmbedding
| wordEncoding
| wordEmbeddingLayer
| bagOfNgrams
| wordcloud
| textscatter