주요 콘텐츠

사전 훈련된 모델

전이 학습, 사운드 분류, 특징 임베딩, 사전 훈련된 오디오 딥러닝 신경망

Audio Toolbox™를 사용하면 MATLAB® 및 Simulink®에서 사용 가능한 사전 훈련된 오디오 딥러닝 신경망이 지원됩니다. YAMNet으로 사운드를 찾아 분류하고 CREPE로 피치를 추정합니다. 머신러닝 및 딥러닝 시스템에 입력할 VGGish 또는 OpenL3 특징 임베딩을 추출합니다. i-vector 시스템을 사용하여 화자 인식, 확인, 식별, 구분과 같은 응용 분야를 위한 오디오 신호의 간결한 표현을 생성할 수 있습니다. 음성 활동 감지(VAD)를 수행하려면 detectspeechnn을 사용하십시오.

사전 훈련된 딥러닝 신경망을 사용하려면 Deep Learning Toolbox™가 필요합니다. Audio Toolbox의 사전 훈련된 신경망은 심층 신경망 디자이너 (Deep Learning Toolbox)에서 사용할 수 있습니다.

함수

모두 확장

audioPretrainedNetworkPretrained audio neural networks (R2024a 이후)
vggishEmbeddingsExtract VGGish feature embeddings (R2022a 이후)
vggishPreprocessPreprocess audio for VGGish feature extraction (R2021a 이후)
classifySoundClassify sounds in audio signal
yamnetGraphGraph of YAMNet AudioSet ontology
yamnetPreprocessPreprocess audio for YAMNet classification (R2021a 이후)
openl3EmbeddingsExtract OpenL3 feature embeddings (R2022a 이후)
openl3PreprocessPreprocess audio for OpenL3 feature extraction (R2021a 이후)
pitchnnEstimate pitch with deep learning neural network (R2021a 이후)
crepePreprocessPreprocess audio for CREPE deep learning network (R2021a 이후)
crepePostprocessPostprocess output of CREPE deep learning network (R2021a 이후)
speakerRecognitionPretrained speaker recognition system (R2021b 이후)
ivectorSystemCreate i-vector system (R2021a 이후)
detectspeechnnDetect boundaries of speech in audio signal using AI (R2023a 이후)
vadnetPreprocessPreprocess audio for voice activity detection (VAD) network (R2023a 이후)
vadnetPostprocessPostprocess frame-based VAD probabilities (R2023a 이후)

블록

모두 확장

VGGish EmbeddingsExtract VGGish embeddings (R2022a 이후)
VGGish PreprocessPreprocess audio for VGGish feature extraction (R2022a 이후)
VGGishVGGish embeddings extraction network (R2022a 이후)
Sound ClassifierClassify sounds in audio signal (R2021b 이후)
YAMNetYAMNet sound classification network (R2021b 이후)
YAMNet PreprocessPreprocess audio for YAMNet classification (R2021b 이후)
OpenL3 EmbeddingsExtract OpenL3 embeddings (R2022b 이후)
OpenL3 PreprocessPreprocess audio for OpenL3 embeddings extraction (R2022b 이후)
OpenL3OpenL3 embeddings extraction network (R2022b 이후)
Deep Pitch EstimatorEstimate pitch with CREPE deep learning neural network (R2023a 이후)
CREPECREPE deep pitch estimation neural network (R2023a 이후)
CREPE PreprocessPreprocess audio for CREPE deep pitch estimation (R2023a 이후)
CREPE PostprocessPostprocess output of CREPE pitch estimation network (R2023a 이후)

심층 신경망 디자이너딥러닝 신경망을 설계하고 시각화합니다

도움말 항목

추천 예제