AI를 사용한 오디오 처리
데이터셋 관리, 레이블 지정 및 증강, 그리고 오디오, 음성 및 음향 응용 분야를 위한 분할 및 특징 추출
Audio Toolbox™는 화자 식별, 음성 명령 인식, 음성 분리, 음향 장면 인식, 잡음 제거 등을 포함해 오디오, 음성, 음향 응용 분야에서의 다양한 머신러닝 및 딥러닝 솔루션 개발에 필요한 기능을 제공합니다.
audioDatastore를 사용하여 대규모 오디오 데이터 세트를 수집하고 파일을 병렬로 처리할 수 있습니다.신호 레이블 지정기를 사용하여 오디오 녹음에 수동 또는 자동으로 주석을 달아 오디오 데이터 세트를 만들 수 있습니다.
audioDataAugmenter를 사용하여, 오디오 데이터 세트의 증강 및 합성을 위해 내장 신호 처리 방법이나 사용자 지정 신호 처리 방법으로 구성된 무작위 파이프라인을 만들 수 있습니다.audioFeatureExtractor를 사용하여 중간 계산을 공유하면서 다양한 기능 조합을 추출할 수 있습니다.
Audio Toolbox는 또한 텍스트-음성 변환 및 음성-텍스트 변환을 위한 타사 API에 대한 액세스를 제공하며, 사전 훈련된 모델을 포함하므로 사용자가 전이 학습을 수행하고, 사운드를 분류하고, 특징 임베딩을 추출할 수 있습니다. 사전 훈련된 신경망을 사용하려면 Deep Learning Toolbox™가 필요합니다.
카테고리
- 응용 사례
오디오 응용 분야에 AI 워크플로 적용
- 데이터셋 관리 및 레이블 지정
대규모 데이터 세트 수집, 생성 및 레이블 지정
- 특징 추출
멜 스펙트로그램, MFCC, 피치, 스펙트럼 설명자
- 데이터 증강
증강 파이프라인, 피치 및 시간 이동, 시간 연장, 볼륨 및 잡음 제어
- 분할
음성과 기타 사운드 감지 및 분리
- 사전 훈련된 모델
전이 학습, 사운드 분류, 특징 임베딩, 사전 훈련된 오디오 딥러닝 신경망
- 음성 전사(Speech Transcription) 및 합성
텍스트-음성 변환 및 음성-텍스트 변환에 사전 훈련된 모델 또는 타사 API 사용
- 코드 생성 및 GPU 지원
이식 가능한 C/C++/MEX 함수의 생성, GPU를 사용한 배포 또는 처리 속도 향상








