Audio Toolbox
음성, 음향 및 오디오 처리 시스템을 설계하고 분석할 수 있습니다
Audio Toolbox™는 오디오 처리, 음성 분석 및 음향 측정을 위한 툴을 제공합니다. Audio Toolbox에는 오디오 신호 처리(예: 이퀄라이제이션 및 동적 범위 제어) 및 음향 측정(예: 임펄스 응답 추정, 옥타브 필터링 및 인지 가중) 알고리즘이 포함됩니다. 또한, 오디오 및 음성 특징 추출(예: MFCC 및 피치) 및 오디오 신호 변환(감마톤 필터 뱅크 및 멜-간격 스펙트로그램) 알고리즘을 제공합니다.
Audio Toolbox의 앱은 실시간 알고리즘 테스트, 임펄스 응답 측정 및 오디오 신호 레이블 지정 작업을 지원합니다. Audio Toolbox는 ASIO, WASAPI, ALSA, CoreAudio 사운드 카드 및 MIDI 기기에 스트리밍 인터페이스를 제공하고, VST 및 오디오 장치와 같은 표준 오디오 플러그인을 생성하고 호스팅하는 도구를 제공합니다.
Audio Toolbox를 사용하면 오디오 데이터 세트를 가져오고, 레이블을 지정하고, 보강할 수 있을 뿐만 아니라 머신러닝 및 딥러닝을 위한 특징을 추출하고 신호를 변환할 수 있습니다. 파라미터를 조정하고 신호를 시각화하면서 저지연 오디오를 스트리밍하여 실시간으로 오디오 처리 알고리즘을 프로토타이핑할 수 있습니다. 알고리즘을 디지털 오디오 워크스테이션과 같은 외부 호스트 응용 프로그램에서 실행할 수 있는 오디오 플러그인으로 변환하여 알고리즘을 검증할 수도 있습니다. 플러그인 호스팅을 통해 일반 객체와 같은 외부 오디오 플러그인을 사용하여 MATLAB® 배열을 처리할 수 있습니다. 사운드 카드 연결을 통해 실제 오디오 신호와 음향 시스템에서 사용자 지정 측정을 진행할 수 있습니다.
시작하기:
표준 오디오 드라이버 연결
Windows®, Mac® 및 Linux® 운영 체제에서 표준 오디오 드라이버(예: ASIO, WASAPI, CoreAudio, ALSA)를 사용하여 USB 또는 Thunderbolt™를 통해 사운드 카드에서 오디오 샘플을 쓰고, 또 읽을 수 있습니다.
저지연-다중채널 오디오 스트리밍
밀리초 단위의 양방향 지연 시간으로 MATLAB에서 실시간 오디오를 처리할 수 있습니다.
사전 훈련된 딥러닝 모델
Yamnet으로 오디오 녹음 내의 사운드 이벤트를 분류하고 VGGish로 오디오 임베딩을 추출하는 등 복잡한 오디오 처리 작업을 수행하기 위해 대규모 오디오 데이터셋으로 사전 훈련된 널리 사용되는 딥러닝 모델을 사용할 수 있습니다.
오디오 및 음성의 특징 추출
MFCC(멜 주파수 켑스트럼 계수), GTCC(감마톤 켑스트럼 계수), 피치, 조화성 및 스펙트럼 설명자 등의 음성 및 오디오 분석을 위한 로우 레벨 특징을 추출할 수 있습니다. LSTM 계층 기반의 아키텍처처럼 시계열 데이터에 대해 작동하는 딥러닝 아키텍처를 사용할 수 있습니다.
시간-주파수 변환
MDCT(수정된 이산 코사인 변환), STFT(단시간 푸리에 변환), 또는 보다 간결한 멜 간격 스펙트로그램을 사용하여 신호를 시간 - 주파수 표현으로 변환할 수 있습니다. 감마톤 필터 뱅크를 사용하는 지각적 공간의 주파수 대역을 사용하여 신호를 분해할 수 있습니다. CNN 계층 기반의 모델처럼 2차원 데이터에 대해 작동하는 딥러닝 모델을 사용할 수 있습니다.
오디오 데이터셋의 레이블 지정 및 주석 추가
실측 레이블과 주석을 오디오 녹음 기록과 데이터 세트에 직접, 그리고 자동으로 지정할 수 있습니다. 오디오 신호 내 음성 영역을 검출할 수 있습니다. 텍스트-음성 변환 클라우드 기반 서비스를 사용하여 음성 전사 작업을 자동화할 수 있습니다.
대규모 오디오 데이터셋 수집
audioDatastore
를 사용하여 대규모의 오디오 녹음 모음에 인덱스를 생성하고 읽을 수 있습니다. 레이블에 따라 오디오 파일 목록을 무작위로 나눕니다. 데이터 증대, 시간-주파수 변환 및 특징 추출을 위해 tall형 배열을 사용하여 처리 작업을 병렬화할 수 있습니다.
오디오 및 음성 데이터셋 증대 및 합성
피치 시프팅, 타임 스트레칭, 및 기타 오디오 처리 효과의 조합을 사용하여 무작위 데이터 증대 작업을 설정할 수 있습니다. 텍스트-음성 변환 클라우드 기반 서비스를 사용하여 텍스트에서 합성 음성 녹음을 생성할 수 있습니다.
오디오 필터 및 이퀄라이저
파라메트릭 EQ, 그래픽 EQ, 셸빙 및 가변 기울기 필터를 모델링하고 적용할 수 있습니다. 디지털 크로스오버, 옥타브 및 부분 옥타브 필터를 설계하고 시뮬레이션합니다.
동적 범위 제어 및 효과
압축기, 리미터, 확장기 및 잡음 게이트와 같은 동적 범위 처리 알고리즘을 모델링하고 적용합니다. 재귀 파라메트릭 모델로 인공 잔향을 추가합니다.
블록 다이어그램을 사용한 시스템 시뮬레이션
Simulink®의 오디오 처리 블록 라이브러리를 사용하여 시스템 모델을 설계하고 시뮬레이션할 수 있습니다. 대화형 방식 제어 및 동적 플롯을 사용하여 파라미터를 조정하고 시스템 동작을 시각화할 수 있습니다.
사용자 인터페이스를 통한 실시간 파라미터 조정
오디오 처리 알고리즘의 조정 가능한 파라미터에 대한 사용자 인터페이스를 자동으로 생성할 수 있습니다. Audio Test Bench 앱을 사용하여 개별 알고리즘을 테스트하고 자동 생성된 대화형 컨트롤로 프로그램을 실행하여 파라미터를 조정할 수 있습니다.
파라미터 컨트롤 및 메시지 교환을 위한 MIDI 연결
MIDI 컨트롤 표면을 사용하여 MATLAB 알고리즘의 파라미터를 대화형 방식으로 변경할 수 있습니다. 모든 유형의 MIDI 메시지를 송수신하여 외부 하드웨어를 제어하거나 이벤트에 응답할 수 있습니다.
표준 기반 측정 및 분석
녹음된 신호 또는 실시간 신호에 SPL(음압 레벨) 측정기와 음량 측정기를 적용할 수 있습니다. 옥타브 및 분수 옥타브 필터로 신호를 분석할 수 있습니다. 원본 녹음본에 표준 호환 A, C 또는 K 가중 필터를 적용할 수 있습니다.
임펄스 응답 측정
MLS(최대 길이 시퀀스)와 ESS(지수 스윕 사인 곡선)가 포함된 음향 및 오디오 시스템의 임펄스와 주파수 응답을 측정할 수 있습니다. Impulse Response Measurer 앱으로 시작할 수 있습니다. 프로그래밍 방식으로 가진 신호를 생성하고 시스템 응답을 추정하여 측정을 자동화할 수 있습니다.
실내 임펄스 반응을 이용한 효율적인 컨벌루션
주파수 영역 오버랩 및 추가 또는 오버랩 및 저장 구현을 사용하여 긴 임펄스 응답을 가진 신호를 효과적으로 컨벌루션할 수 있습니다. 자동 임펄스 응답 분할을 사용하여 지연과 계산 속도 간에 절충할 수 있습니다.
공간 오디오
다양한 입체 음향 형식을 인코딩하고 디코딩할 수 있습니다. 공간적으로 샘플링된 HRTF(머리 관련 전달 함수)를 보간할 수 있습니다.
오디오 플러그인 생성
사용자 인터페이스를 직접 설계할 필요 없이 MATLAB 코드에서 VST 플러그인, AU 플러그인, 독립형 실행 파일 플러그인을 직접 생성할 수 있습니다. 더 고도화된 플러그인을 프로토타이핑하려면 구축 준비된 JUCE C++ 프로젝트를 생성할 수 있습니다(MATLAB Coder™ 필요).
외부 오디오 플러그인 호스팅
외부 VST 및 AU 플러그인을 일반 MATLAB 객체로 사용할 수 있습니다. 플러그인 파라미터를 변경하고 프로그래밍 방식으로 MATLAB 배열을 처리할 수 있습니다. 또는 플러그인 파라미터와 사용자 인터페이스 및 MIDI 컨트롤의 연결을 자동화할 수 있습니다. 실행 효율성을 높이기 위해 MATLAB 코드에서 생성된 플러그인을 호스팅할 수도 있습니다.
저가 및 모바일 기기
온보드 또는 외부 다중채널 오디오 인터페이스를 사용하여 Raspberry Pi™의 오디오 처리 설계를 프로토타이핑할 수 있습니다. Android® 또는 iOS 기기용 모바일 앱으로 대화형 제어판을 만들 수 있습니다.
무지연 시스템
적응형 잡음 제어, 보청기 검증 또는 최소 양방향 DSP 지연이 필요한 기타 응용 분야에 대한 단일 샘플 입출력이 포함된 오디오 처리 설계를 프로토타이핑할 수 있습니다. Simulink 모델에서 직접 Speedgoat 오디오 기기와 ST 디스커버리 보드를 대상으로 자동으로 타겟팅할 수 있습니다.