Text Analytics Toolboxで品詞でフィルタしたものを、Token化するにはどうしたら良いでしょうか？

%% 解析用データの読込み（「吾輩は猫である」を読み込んでいます）
url = "https://www.aozora.gr.jp/cards/000148/files/789_14547.html";
options = weboptions('CharacterEncoding','Shift_JIS');
code = webread(url,options);
textData = extractHTMLText(code);
textData = string(split(textData,newline));
idx = textData == "";
textData(idx) = [];
%% トークン化
documents = tokenizedDocument(textData);
%% 品詞情報の取得
tdetails = tokenDetails(documents);
head(tdetails)
%% 名詞の抽出
idx = tdetails.PartOfSpeech == "noun";
%% 再びトークン化
tokens = tdetails(idx,:);
for ii = 1:max(tokens.DocumentNumber)
    try
        str(ii,:) = join(tokens.Token(tokens.DocumentNumber == ii));
    end
end
documents = tokenizedDocument(str)
documents.Vocabulary

댓글 수: 1
이전 댓글 -1개 표시 이전 댓글 -1개 숨기기

Takafumi Amano 2021년 3월 8일

ありがとうございました。

無事に意図したものができました。

댓글을 달려면 로그인하십시오.

Text Analytics Toolboxで品詞でフィルタしたものを、Token化するにはどうしたら良いでしょうか？

댓글 수: 0
이전 댓글 -2개 표시 이전 댓글 -2개 숨기기

채택된 답변

댓글 수: 1
이전 댓글 -1개 표시 이전 댓글 -1개 숨기기

추가 답변 (0개)

카테고리

제품

태그

Community Treasure Hunt

Text Analytics Toolboxで品詞​でフィルタしたものを​、Token化するに​はどうしたら良いでし​ょうか？

댓글 수: 0 이전 댓글 -2개 표시 이전 댓글 -2개 숨기기

채택된 답변

댓글 수: 1 이전 댓글 -1개 표시 이전 댓글 -1개 숨기기

추가 답변 (0개)

카테고리

제품

태그

참고 항목

Community Treasure Hunt

Text Analytics Toolboxで品詞でフィルタしたものを、Token化するにはどうしたら良いでしょうか？

댓글 수: 0
이전 댓글 -2개 표시 이전 댓글 -2개 숨기기

댓글 수: 1
이전 댓글 -1개 표시 이전 댓글 -1개 숨기기