Main Content

이 페이지의 내용은 이전 릴리스에 관한 것입니다. 해당 영문 페이지는 최신 릴리스에서 제거되었습니다.

텍스트 분석 용어집

이 섹션에는 텍스트 분석에 사용되는 용어가 나열되어 있습니다.

문서 및 토큰

용어정의추가 정보
바이그램(bigram)연속된 두 개의 토큰. 예를 들어 ["New" "York"]이 이에 해당됩니다.bagOfNgrams
복합 토큰복잡한 구조로 된 토큰. 예를 들어 이메일 주소, 해시 태그 등이 있습니다.tokenDetails
문맥주어진 한 토큰의 주변에 있는 다른 토큰이나 문자.context
말뭉치문서 모음.tokenizedDocument
문서하나의 텍스트 데이터 관측값. 예를 들어 보고서, 트윗, 기사 등이 있습니다.tokenizedDocument
문자소사람이 읽을 수 있는 문자. 문자소는 여러 개의 유니코드 코드 포인트로 구성될 수 있습니다. 예를 들어 "a", "😎" 또는 "語" 등이 있습니다.splitGraphemes
n-gram연속된 N개의 토큰.bagOfNgrams
품사문법 구조에 사용된 단어의 범주. 예를 들어 "명사", "동사", "형용사" 등이 있습니다.addPartOfSpeechDetails
토큰한 단위의 텍스트 데이터를 나타내는 문자로 구성된 문자열. "유니그램(unigram)"이라고도 합니다. 예를 들어 단어, 숫자, 이메일 주소 등이 있습니다.tokenizedDocument
토큰 세부 정보토큰에 대한 정보. 예를 들어 유형, 언어, 품사 정보 등이 있습니다.tokenDetails
토큰 유형토큰의 범주. 예를 들어 "문자", "문장 부호", "이메일 주소" 등이 있습니다.tokenDetails
토큰화된 문서토큰으로 분할된 문서.tokenizedDocument
트라이그램(trigram)연속된 세 개의 토큰. 예를 들어 ["The" "United" "States"]가 이에 해당됩니다.bagOfNgrams
단어집말뭉치 또는 모델 내에서 고유한 단어 또는 토큰.tokenizedDocument

전처리

용어정의추가 정보
정규화단어를 원형(root form)으로 줄입니다. 예를 들어, 어간 추출 또는 표제어 추출을 사용하여 단어 "walking"을 "walk"로 줄이는 경우가 이에 해당됩니다. normalizeWords
표제어 추출단어를 사전에 등재된 단어(표제어 형태)로 줄입니다. 예를 들어, 단어 "running"과 "ran"을 "run"으로 줄이는 경우가 이에 해당됩니다.normalizeWords
어간 추출굴절 형태를 제거하여 단어를 줄입니다. 줄인 단어가 반드시 실재하는 단어는 아닙니다. 예를 들어, Porter 어간 추출기는 단어 "happy"와 "happiest"를 "happi"로 줄입니다.normalizeWords
불용어흔히 분석 전에 제거되는 단어. 예를 들어 "and", "of", "the" 등이 있습니다.removeStopWords

모델링 및 예측

Bag-of-Words

용어정의추가 정보
Bag-of-n-grams 모델n-gram이 말뭉치의 각 문서에서 나타나는 횟수를 기록하는 모델.bagOfNgrams
Bag-of-words 모델단어가 문서 모음의 각 문서에서 나타나는 횟수를 기록하는 모델.bagOfWords
단어 빈도 행렬지정된 단어집에 대응하는 단어가 문서의 모음에서 발생하는 빈도 수로 구성된 행렬. 이 행렬은 bag-of-words 모델의 기저 데이터입니다.bagOfWords
TF-IDF(단어 빈도-역 문서 빈도) 행렬문서 내의 단어 빈도 수와 말뭉치 내의 단어를 포함하는 문서의 비율에 따른 통계적 측정값.tfidf

LDA(잠재 디리클레 할당)

용어정의추가 정보
말뭉치 토픽 확률LDA 모델을 피팅하는 데 사용되는 말뭉치에서 각 토픽을 관측하게 될 확률.ldaModel
문서 토픽 확률LDA 모델을 피팅하는 데 사용되는 각 문서에서 각 토픽을 관측하게 될 확률. 또는 훈련 문서의 토픽 혼합.ldaModel
LDA(잠재 디리클레 할당)문서 내 토픽 확률과 토픽 내 단어 확률을 추정하는 생성적 통계 토픽 모델.fitlda
혼잡도(perplexity)모델이 지정된 데이터를 얼마나 잘 설명하는지를 나타내는 통계적 측정값. 혼잡도가 낮을수록 더 적합한 피팅임을 나타냅니다.logp
토픽단어의 분포. "토픽 단어 확률"로 나타납니다.ldaModel
토픽 집중도말뭉치 토픽 혼합의 기본 디리클레 분포와 관련된 집중도 파라미터.ldaModel
토픽 혼합지정된 문서 내 토픽 확률.transform
토픽 단어 확률지정된 토픽 내 단어 확률.ldaModel
단어 집중도토픽의 기본 디리클레 분포와 관련된 집중도 파라미터.ldaModel

LSA(잠재 의미 분석)

용어정의추가 정보
성분 가중치제곱된, 분해의 특이값.lsaModel
문서 점수문서의 더 낮은 차원 공간에서의 점수 벡터. LSA 모델을 피팅하는 데 사용됩니다.transform
LSA(잠재 의미 분석)주성분 분석(PCA)을 기반으로 차원을 줄이는 기법.fitlsa
단어 점수LSA 모델에서 각 성분의 개별 단어 점수.lsaModel

단어 임베딩

용어정의추가 정보
단어 임베딩단어집의 단어를 실수형 벡터로 매핑하는 모델(word2vec, GloVe 및 fastText 라이브러리를 통해 대중화됨).wordEmbedding
단어 임베딩 계층훈련 동안 단어 임베딩을 학습하는 딥러닝 신경망 계층.wordEmbeddingLayer
단어 인코딩단어를 숫자형 인덱스로 매핑하는 모델.wordEncoding

시각화

용어정의추가 정보
텍스트 산점도 플롯지정된 좌표에 마커 대신에 단어가 플로팅된 산점도 플롯.textscatter
워드 클라우드숫자형 데이터(대개 빈도 수)에 해당하는 크기로 단어를 표시하는 차트.wordcloud

참고 항목

| | | | | | | | | | | |

관련 항목