제품 및 서비스

오디오 및 음성을 위한 즉시 사용 가능한 AI

사전 훈련된 AI로 오디오 및 음성 신호의 처리 및 분석

Audio Toolbox 및 Audio Toolbox Interface for SpeechBrain and Torchaudio Libraries를 사용하면 사전 훈련된 AI 모델로 오디오 및 음성에 대한 고급 신호 처리 및 분석 작업을 수행할 수 있습니다.

개별 함수 호출을 사용해 딥러닝에 대한 전문 지식 없이도 다음과 같은 작업을 수행할 수 있습니다.

  • STT(음성-텍스트 변환) 파이프라인을 사용한 ASR(자동 음성 인식)로 음성 전사
  • TTS(텍스트-음성 변환) 파이프라인을 사용한 음성 합성
  • VAD(음성 활동 감지)로 음성 검출, 발화 언어 식별 및 소리 분류
  • 화자 인식 딥러닝 모델 및 머신러닝 파이프라인을 통한 화자 등록 및 식별
  • 칵테일 파티 문제에서 음성 소스 분리, 음성 신호의 개선 및 잡음 제거
  • 음높이 추정 및 오디오, 음성, 음악 신호에서 임베딩 추출

이들 함수는 사전 훈련된 머신러닝 및 딥러닝 모델을 사용하며, MATLAB, Python® 및 PyTorch®의 조합을 사용해 실행됩니다.

음성과 텍스트 간 변환이 가능한 헤드셋 내부의 신경망 사용을 묘사한 픽토그램.

Audio Toolbox Interface for SpeechBrain and Torchaudio Libraries

Audio Toolbox Interface for SpeechBrain and Torchaudio Libraries를 통해 Audio Toolbox 함수로 사전 훈련된 AI 모델을 사용해 신호 처리 및 신호 분석을 수행할 수 있습니다.

이 인터페이스는 Python 및 PyTorch의 설치를 자동화하며, SpeechBrain 및 Torchaudio 라이브러리로부터 선별된 딥러닝 모델을 다운로드합니다. 설치가 완료되면 로컬 AI 모델을 사용해 다음과 같은 함수를 실행하게 됩니다.

  • speech2text는 로컬 wav2vec 모델뿐만 아니라 Google, IBM, Microsoft, Amazon 등과 같은 클라우드 서비스 옵션과 더불어 모델이 emformer 또는 whisper로 설정된 speechClient 객체를 받습니다. whisper를 사용하려면 Whisper 음성-텍스트 변환 모델 다운로드에 설명된 대로 모델 가중치를 별도로 다운로드해야 합니다.
  • text2speech는 Google, IBM, Microsoft, Amazon 등과 같은 클라우드 서비스 옵션과 더불어 모델이 hifigan으로 설정된 speechClient 객체를 받습니다.

speech2texttext2speech 함수는 텍스트 문자열 및 오디오 샘플을 받고 반환합니다. 이들 함수는 신호 전처리, 특징 추출, 모델 예측, 출력값 후처리 등을 위해 사용자가 코드를 작성할 필요가 없습니다.

모델 옵션 목록이 보이는 음성 클라이언트 객체.
번역 모드에서 Whisper 모델의 디폴트가 아닌 speechClient 객체를 통해 speech2text 함수를 사용하는 코드.

Whisper를 사용해 다중언어 음성 번역 및 전사

텍스트로부터 합성 음성을 생성하는 text2speech 함수를 사용하는 코드.

로컬 모델을 사용해 텍스트로부터 음성 합성

전사를 통해 음성 신호 및 파형 오버레이에 레이블을 지정해 발화된 단어를 식별하는 신호 레이블 지정기 앱.

신호 레이블 지정기에서 음성-텍스트 변환을 사용한 음성 녹음 레이블 지정

음성 및 오디오를 위한 추가 함수를 갖춘 즉시 사용 가능한 AI

Audio Toolbox에는 classifySound, separateSpeakers, enhanceSpeech, detectspeechnn, pitchnnidentifyLanguage 등의 추가 함수가 포함되어 있습니다. 이들 함수를 통해 고급 딥러닝 모델을 사용하여 AI 전문 지식 없이도 오디오 신호를 처리하고 분석할 수 있습니다. 이러한 모델은 Audio Toolbox Interface for SpeechBrain and Torchaudio Libraries를 필요로 하지 않습니다.

특정 음향 클래스를 나타내는 태그가 지정된 세그먼트가 보이는 음향 신호 플롯.

classifySound를 사용한 음향 분류

4개의 플롯: 원본 오디오 믹스, 2개의 분리된 음성 성분 및 미미한 진폭이 있는 잔차 신호.

separateSpeakers를 사용한 음성 음원 분리

원본 녹음과 향상된 버전 사이의 차이를 볼 수 있는 두 개의 다른 신호와 시간-주파수 스펙트로그램이 보이는 2x2 플롯 그리드.

enhanceSpeech를 사용한 음성 향상

PyTorch와 함께 MATLAB을 사용한 딥러닝 모델 개발

딥러닝에 익숙한 MATLAB 및 PyTorch 사용자는 공동 실행 및 모델 교환 워크플로를 통해 두 언어를 함께 사용하여 AI 모델을 개발하고 훈련시킬 수 있습니다.

자세히 알아보기: