Main Content

word2vec

단어를 임베딩 벡터에 매핑하기

설명

예제

M = word2vec(emb,words)는 임베딩 emb에 있는 words의 임베딩 벡터를 반환합니다. 단어가 임베딩 단어집에 없는 경우 이 함수는 NaN 행을 반환합니다. 이 함수는 기본적으로 대/소문자를 구분합니다.

M = word2vec(emb,words,'IgnoreCase',true)는 위에 열거된 구문 중 하나를 사용하여 대/소문자를 무시한 words의 임베딩 벡터를 반환합니다. 임베딩의 여러 단어가 대/소문자만 다른 경우 이 함수는 그 중 하나에 해당하는 벡터를 반환하며 어떤 특정 벡터를 반환하지 않습니다.

예제

모두 축소

사전 훈련된 단어 임베딩을 fastTextWordEmbedding을 사용하여 불러옵니다. 이 함수를 사용하려면 Text Analytics Toolbox™ Model for fastText English 16 Billion Token Word Embedding 지원 패키지가 필요합니다. 이 지원 패키지가 설치되어 있지 않으면 함수에서 다운로드 링크를 제공합니다.

emb = fastTextWordEmbedding
emb = 
  wordEmbedding with properties:

     Dimension: 300
    Vocabulary: [1×1000000 string]

word2vec을 사용하여 단어 "Italy", "Rome" 및 "Paris"를 벡터에 매핑합니다.

italy = word2vec(emb,"Italy");
rome = word2vec(emb,"Rome");
paris = word2vec(emb,"Paris");

vec2word를 사용하여 벡터 italy - rome + paris를 단어에 매핑합니다.

word = vec2word(emb,italy - rome + paris)
word = 
"France"

입력 인수

모두 축소

입력 단어 임베딩으로, wordEmbedding 객체로 지정됩니다.

입력 단어로, string형 벡터, 문자형 벡터 또는 문자형 벡터로 구성된 셀형 배열로 지정됩니다. words를 문자형 벡터로 지정할 경우 이 함수는 인수를 단일 단어로 처리합니다.

데이터형: string | char | cell

출력 인수

모두 축소

단어 임베딩 벡터로 구성된 행렬입니다.

버전 내역

R2017b에 개발됨