Main Content

writeWordEmbedding

단어 임베딩 파일 쓰기

설명

예제

writeWordEmbedding(emb,filename)는 단어 임베딩 embfilename 파일에 씁니다. 이 함수는 word2vec 텍스트 형식에 UTF-8로 된 단어집을 씁니다.

예제

모두 축소

단어 임베딩을 훈련시키고 텍스트 파일에 씁니다.

예제 데이터를 불러옵니다. 파일 sonnetsPreprocessed.txt에는 셰익스피어 소네트의 전처리된 버전이 들어 있습니다. 파일에는 한 줄에 하나씩 소네트가 들어 있으며 단어가 공백으로 구분되어 있습니다. sonnetsPreprocessed.txt에서 텍스트를 추출하고, 추출한 텍스트를 새 줄 문자에서 문서로 분할한 후 그 문서를 토큰화합니다.

filename = "sonnetsPreprocessed.txt";
str = extractFileText(filename);
textData = split(str,newline);
documents = tokenizedDocument(textData);

trainWordEmbedding을 사용하여 단어 임베딩을 훈련시킵니다.

emb = trainWordEmbedding(documents)
Training: 100% Loss: 3.10465  Remaining time: 0 hours 0 minutes.
emb = 
  wordEmbedding with properties:

     Dimension: 100
    Vocabulary: ["thy"    "thou"    "love"    "thee"    "doth"    ...    ]

단어 임베딩을 텍스트 파일에 씁니다.

filename = "exampleSonnetsEmbedding.vec";
writeWordEmbedding(emb,filename)

readWordEmbedding을 사용하여 단어 임베딩 파일을 읽어옵니다.

emb = readWordEmbedding(filename)
emb = 
  wordEmbedding with properties:

     Dimension: 100
    Vocabulary: ["thy"    "thou"    "love"    "thee"    "doth"    ...    ]

입력 인수

모두 축소

입력 단어 임베딩으로, wordEmbedding 객체로 지정됩니다.

파일 이름으로, string형 스칼라 또는 문자형 벡터로 지정됩니다.

데이터형: string | char

버전 내역

R2017b에 개발됨