Audio Toolbox 및 Audio Toolbox Interface for SpeechBrain and Torchaudio Libraries를 사용하면 사전 훈련된 AI 모델로 오디오 및 음성에 대한 고급 신호 처리 및 분석 작업을 수행할 수 있습니다.
개별 함수 호출을 사용해 딥러닝에 대한 전문 지식 없이도 다음과 같은 작업을 수행할 수 있습니다.
- STT(음성-텍스트 변환) 파이프라인을 사용한 ASR(자동 음성 인식)로 음성 전사
- TTS(텍스트-음성 변환) 파이프라인을 사용한 음성 합성
- VAD(음성 활동 감지)로 음성 검출, 발화 언어 식별 및 소리 분류
- 화자 인식 딥러닝 모델 및 머신러닝 파이프라인을 통한 화자 등록 및 식별
- 칵테일 파티 문제에서 음성 소스 분리, 음성 신호의 개선 및 잡음 제거
- 음높이 추정 및 오디오, 음성, 음악 신호에서 임베딩 추출
이들 함수는 사전 훈련된 머신러닝 및 딥러닝 모델을 사용하며, MATLAB, Python® 및 PyTorch®의 조합을 사용해 실행됩니다.
Audio Toolbox Interface for SpeechBrain and Torchaudio Libraries
Audio Toolbox Interface for SpeechBrain and Torchaudio Libraries를 통해 Audio Toolbox 함수로 사전 훈련된 AI 모델을 사용해 신호 처리 및 신호 분석을 수행할 수 있습니다.
이 인터페이스는 Python 및 PyTorch의 설치를 자동화하며, SpeechBrain 및 Torchaudio 라이브러리로부터 선별된 딥러닝 모델을 다운로드합니다. 설치가 완료되면 로컬 AI 모델을 사용해 다음과 같은 함수를 실행하게 됩니다.
speech2text는 로컬wav2vec모델뿐만 아니라Google,IBM,Microsoft,Amazon등과 같은 클라우드 서비스 옵션과 더불어 모델이emformer또는whisper로 설정된speechClient객체를 받습니다.whisper를 사용하려면 Whisper 음성-텍스트 변환 모델 다운로드에 설명된 대로 모델 가중치를 별도로 다운로드해야 합니다.text2speech는Google,IBM,Microsoft,Amazon등과 같은 클라우드 서비스 옵션과 더불어 모델이hifigan으로 설정된speechClient객체를 받습니다.
speech2text 및 text2speech 함수는 텍스트 문자열 및 오디오 샘플을 받고 반환합니다. 이들 함수는 신호 전처리, 특징 추출, 모델 예측, 출력값 후처리 등을 위해 사용자가 코드를 작성할 필요가 없습니다.
음성 및 오디오를 위한 추가 함수를 갖춘 즉시 사용 가능한 AI
Audio Toolbox에는 classifySound, separateSpeakers, enhanceSpeech, detectspeechnn, pitchnn 및 identifyLanguage 등의 추가 함수가 포함되어 있습니다. 이들 함수를 통해 고급 딥러닝 모델을 사용하여 AI 전문 지식 없이도 오디오 신호를 처리하고 분석할 수 있습니다. 이러한 모델은 Audio Toolbox Interface for SpeechBrain and Torchaudio Libraries를 필요로 하지 않습니다.
PyTorch와 함께 MATLAB을 사용한 딥러닝 모델 개발
딥러닝에 익숙한 MATLAB 및 PyTorch 사용자는 공동 실행 및 모델 교환 워크플로를 통해 두 언어를 함께 사용하여 AI 모델을 개발하고 훈련시킬 수 있습니다.
자세히 알아보기: