텍스트 분석을 위한 데이터 세트
이 페이지에는 텍스트 분석 응용 작업을 시작할 때 사용할 수 있는 다양한 데이터 세트가 나열되어 있습니다.
데이터 세트 | 설명 | 작업 |
---|---|---|
Factory Reports
| Factory Reports 데이터 세트는 약 500개의 보고서로 구성된 테이블로, 변수 파일 filename = "factoryReports.csv"; data = readtable(filename,'TextType','string'); textData = data.Description; labels = data.Category; 딥러닝을 위해 이 데이터를 처리하는 방법을 보여주는 예제는 딥러닝을 사용하여 텍스트 데이터 분류하기 (Deep Learning Toolbox) 항목을 참조하십시오. | 텍스트 분류, 토픽 모델링 |
셰익스피어의 소네트
| 파일 파일 filename = "sonnets.txt";
textData = extractFileText(filename);
소네트는 공백 문자 2개로 들여쓰기 되어 있고 새 줄 문자 2개로 구분되어 있습니다. textData = replace(textData," ",""); textData = split(textData,[newline newline]); textData = textData(5:2:end); 딥러닝을 위해 이 데이터를 처리하는 방법을 보여주는 예제는 딥러닝을 사용하여 텍스트 생성하기 (Deep Learning Toolbox) 항목을 참조하십시오. | 토픽 모델링, 텍스트 생성 |
ArXiv 메타데이터
| ArXiv API로 https://arxiv.org에 제출된 과학 분야 전자 연구물(초록과 관련 주제 영역이 포함되어 있음)의 메타데이터에 액세스할 수 있습니다. 자세한 내용은 https://arxiv.org/help/api 항목을 참조하십시오. arXiV API를 사용하여 수학 논문에서 초록과 범주 레이블 집합을 가져옵니다. url = "https://export.arxiv.org/oai2?verb=ListRecords" + ... "&set=math" + ... "&metadataPrefix=arXiv"; options = weboptions('Timeout',160); code = webread(url,options); 반환된 XML 코드를 구문 분석하고 레코드를 추가로 가져오는 방법을 보여주는 예제는 Multilabel Text Classification Using Deep Learning 항목을 참조하십시오. | 텍스트 분류, 토픽 모델링 |
Project Gutenberg 도서 자료
| Project Gutenberg에서 다양한 도서를 다운로드할 수 있습니다. 예를 들어 url = "https://www.gutenberg.org/files/11/11-h/11-h.htm";
code = webread(url); HTML 코드의 tree = htmlTree(code);
selector = "p";
subtrees = findElement(tree,selector);
textData = extractHTMLText(subtrees);
textData(textData == "") = []; 딥러닝을 위해 이 데이터를 처리하는 방법을 보여주는 예제는 딥러닝을 사용하여 단어 단위로 텍스트 생성하기 항목을 참조하십시오. | 토픽 모델링, 텍스트 생성 |
Weekend updates
| 파일
filename = "weekendUpdates.xlsx"; tbl = readtable(filename,'TextType','string'); textData = tbl.TextData; 이 데이터를 처리하는 방법을 보여주는 예제는 텍스트에 내포된 감성 분석하기 항목을 참조하십시오. | 감성 분석 |
Roman Numerals
| CSV 파일 CSV 파일 filename = fullfile("romanNumerals.csv"); options = detectImportOptions(filename, ... 'TextType','string', ... 'ReadVariableNames',false); options.VariableNames = ["Source" "Target"]; options.VariableTypes = ["string" "string"]; data = readtable(filename,options); 딥러닝을 위해 이 데이터를 처리하는 방법을 보여주는 예제는 Sequence-to-Sequence Translation Using Attention 항목을 참조하십시오. | sequence-to-sequence 변환 |
Finance Reports
| SEC(증권거래위원회)에서는 사람들에게 EDGAR(전자 데이터 수집, 분석 및 검색) API를 통해 재무 보고서에 액세스할 수 있도록 허용하고 있습니다. 자세한 내용은 https://www.sec.gov/os/accessing-edgar-data 항목을 참조하십시오. 이 데이터를 다운로드하려면 예제 Generate Domain Specific Sentiment Lexicon에 지원 파일로 첨부된 함수 year = 2019; qtr = 4; maxLength = 2e6; textData = financeReports(year,qtr,maxLength); 이 데이터를 처리하는 방법을 보여주는 예제는 Generate Domain Specific Sentiment Lexicon 항목을 참조하십시오. | 감성 분석 |