Main Content


단어 임베딩 파일 쓰기



writeWordEmbedding(emb,filename)는 단어 임베딩 embfilename 파일에 씁니다. 이 함수는 word2vec 텍스트 형식에 UTF-8로 된 단어집을 씁니다.


모두 축소

단어 임베딩을 훈련시키고 텍스트 파일에 씁니다.

예제 데이터를 불러옵니다. 파일 sonnetsPreprocessed.txt에는 셰익스피어 소네트의 전처리된 버전이 들어 있습니다. 파일에는 한 줄에 하나씩 소네트가 들어 있으며 단어가 공백으로 구분되어 있습니다. sonnetsPreprocessed.txt에서 텍스트를 추출하고, 추출한 텍스트를 새 줄 문자에서 문서로 분할한 후 그 문서를 토큰화합니다.

filename = "sonnetsPreprocessed.txt";
str = extractFileText(filename);
textData = split(str,newline);
documents = tokenizedDocument(textData);

trainWordEmbedding을 사용하여 단어 임베딩을 훈련시킵니다.

emb = trainWordEmbedding(documents)
Training: 100% Loss: 0        Remaining time: 0 hours 0 minutes.
emb = 
  wordEmbedding with properties:

     Dimension: 100
    Vocabulary: ["thy"    "thou"    "love"    "thee"    "doth"    "mine"    "shall"    "eyes"    "sweet"    "time"    "nor"    "beauty"    "yet"    "art"    "heart"    "o"    "thine"    "hath"    "fair"    "make"    "still"    ...    ] (1x401 string)

단어 임베딩을 텍스트 파일에 씁니다.

filename = "exampleSonnetsEmbedding.vec";

readWordEmbedding을 사용하여 단어 임베딩 파일을 읽어옵니다.

emb = readWordEmbedding(filename)
emb = 
  wordEmbedding with properties:

     Dimension: 100
    Vocabulary: ["thy"    "thou"    "love"    "thee"    "doth"    "mine"    "shall"    "eyes"    "sweet"    "time"    "nor"    "beauty"    "yet"    "art"    "heart"    "o"    "thine"    "hath"    "fair"    "make"    "still"    ...    ] (1x401 string)

입력 인수

모두 축소

입력 단어 임베딩으로, wordEmbedding 객체로 지정됩니다.

파일 이름으로, string형 스칼라, 문자형 벡터 또는 문자형 벡터를 포함하는 1×1 셀형 배열로 지정됩니다.

데이터형: string | char | cell

버전 내역

R2017b에 개발됨