Audio Toolbox

음성, 음향 및 오디오 처리 시스템을 설계하고 분석할 수 있습니다

 

Audio Toolbox™는 오디오 처리, 음성 분석 및 음향 측정을 위한 툴을 제공합니다. Audio Toolbox에는 오디오 신호 처리(예: 이퀄라이제이션 및 동적 범위 제어) 및 음향 측정(예: 임펄스 응답 추정, 옥타브 필터링 및 인지 가중) 알고리즘이 포함됩니다. 또한, 오디오 및 음성 특징 추출(예: MFCC 및 피치) 및 오디오 신호 변환(감마톤 필터 뱅크 및 멜-간격 스펙트로그램) 알고리즘을 제공합니다.

Audio Toolbox의 앱은 실시간 알고리즘 테스트, 임펄스 응답 측정 및 오디오 신호 레이블 지정 작업을 지원합니다. Audio Toolbox는 ASIO, WASAPI, ALSA, CoreAudio 사운드 카드 및 MIDI 기기에 스트리밍 인터페이스를 제공하고, VST 및 오디오 장치와 같은 표준 오디오 플러그인을 생성하고 호스팅하는 도구를 제공합니다.

Audio Toolbox를 사용하면 오디오 데이터 세트를 가져오고, 레이블을 지정하고, 보강할 수 있을 뿐만 아니라 머신러닝 및 딥러닝을 위한 특징을 추출하고 신호를 변환할 수 있습니다. 파라미터를 조정하고 신호를 시각화하면서 저지연 오디오를 스트리밍하여 실시간으로 오디오 처리 알고리즘을 프로토타이핑할 수 있습니다. 알고리즘을 디지털 오디오 워크스테이션과 같은 외부 호스트 응용 프로그램에서 실행할 수 있는 오디오 플러그인으로 변환하여 알고리즘을 검증할 수도 있습니다. 플러그인 호스팅을 통해 일반 객체와 같은 외부 오디오 플러그인을 사용하여 MATLAB® 배열을 처리할 수 있습니다. 사운드 카드 연결을 통해 실제 오디오 신호와 음향 시스템에서 사용자 지정 측정을 진행할 수 있습니다.

시작하기:

사운드 카드를 통한 오디오 스트리밍

파일과 실시간 입출력 간의 저지연 다중채널 오디오 스트리밍을 위해 표준 랩탑 및 데스크탑의 사운드 카드에 연결할 수 있습니다.

표준 오디오 드라이버 연결

Windows®, Mac® 및 Linux® 운영 체제에서 표준 오디오 드라이버(예: ASIO, WASAPI, CoreAudio, ALSA)를 사용하여 USB 또는 Thunderbolt™를 통해 사운드 카드에서 오디오 샘플을 쓰고, 또 읽을 수 있습니다.

다중채널 사운드 카드.

저지연-다중채널 오디오 스트리밍

밀리초 단위의 양방향 지연 시간으로 MATLAB에서 실시간 오디오를 처리할 수 있습니다.

4-채널 마이크 배열로부터의 실시간 원시 입력.

머신러닝 및 딥러닝

오디오 및 음성 데이터셋에 레이블을 지정하고, 증대하고, 생성하고, 수집하고, 특징을 추출하고, 시간-주파수 변환을 계산할 수 있습니다. Statistics and Machine Learning Toolbox™, Deep Learning Toolbox™ 또는 기타 머신러닝 툴로 오디오 및 음성 분석을 개발할 수 있습니다.

사전 훈련된 딥러닝 모델

Yamnet으로 오디오 녹음 내의 사운드 이벤트를 분류하고 VGGish로 오디오 임베딩을 추출하는 등 복잡한 오디오 처리 작업을 수행하기 위해 대규모 오디오 데이터셋으로 사전 훈련된 널리 사용되는 딥러닝 모델을 사용할 수 있습니다.

특정 오디오 세그먼트에서 classifySound로 식별되는 사운드 유형을 표시하는 단어 클라우드.

오디오 및 음성의 특징 추출

MFCC(멜 주파수 켑스트럼 계수), GTCC(감마톤 켑스트럼 계수), 피치, 조화성 및 스펙트럼 설명자 등의 음성 및 오디오 분석을 위한 로우 레벨 특징을 추출할 수 있습니다. LSTM 계층 기반의 아키텍처처럼 시계열 데이터에 대해 작동하는 딥러닝 아키텍처를 사용할 수 있습니다.

라이브 편집기에서 오디오 특징 추출기를 사용한 대화형 방식의 버퍼링 옵션 및 관심 특징 선택.

시간-주파수 변환

MDCT(수정된 이산 코사인 변환), STFT(단시간 푸리에 변환), 또는 보다 간결한 멜 간격 스펙트로그램을 사용하여 신호를 시간 - 주파수 표현으로 변환할 수 있습니다. 감마톤 필터 뱅크를 사용하는 지각적 공간의 주파수 대역을 사용하여 신호를 분해할 수 있습니다. CNN 계층 기반의 모델처럼 2차원 데이터에 대해 작동하는 딥러닝 모델을 사용할 수 있습니다.

음성 명령의 실시간 멜 스펙트로그램.

오디오 데이터셋의 레이블 지정 및 주석 추가

실측 레이블과 주석을 오디오 녹음 기록과 데이터 세트에 직접, 그리고 자동으로 지정할 수 있습니다. 오디오 신호 내 음성 영역을 검출할 수 있습니다. 텍스트-음성 변환 클라우드 기반 서비스를 사용하여 음성 전사 작업을 자동화할 수 있습니다.

Audio Labeler 앱의 관심 영역 레이블.

대규모 오디오 데이터셋 수집

audioDatastore를 사용하여 대규모의 오디오 녹음 모음에 인덱스를 생성하고 읽을 수 있습니다. 레이블에 따라 오디오 파일 목록을 무작위로 나눕니다. 데이터 증대, 시간-주파수 변환 및 특징 추출을 위해 tall형 배열을 사용하여 처리 작업을 병렬화할 수 있습니다.

Google 음성 명령 데이터셋을 가리키는 데이터저장소.

오디오 및 음성 데이터셋 증대 및 합성

피치 시프팅, 타임 스트레칭, 및 기타 오디오 처리 효과의 조합을 사용하여 무작위 데이터 증대 작업을 설정할 수 있습니다. 텍스트-음성 변환 클라우드 기반 서비스를 사용하여 텍스트에서 합성 음성 녹음을 생성할 수 있습니다.

음색 불변 피치 시프팅에 대한 포먼트 추정

오디오 처리 알고리즘 및 효과

동적 파라미터 조정과 실시간 시각화를 통해 표준 파형을 생성하고, 일반적인 오디오 효과를 적용하고, 오디오 처리 시스템을 설계할 수 있습니다.

오디오 필터 및 이퀄라이저

파라메트릭 EQ, 그래픽 EQ, 셸빙 및 가변 기울기 필터를 모델링하고 적용할 수 있습니다. 디지털 크로스오버, 옥타브 및 부분 옥타브 필터를 설계하고 시뮬레이션합니다.

실시간 시각화로 3-대역 크로스오버 필터의 대화형 방식 조정.

동적 범위 제어 및 효과

압축기, 리미터, 확장기 및 잡음 게이트와 같은 동적 범위 처리 알고리즘을 모델링하고 적용합니다. 재귀 파라메트릭 모델로 인공 잔향을 추가합니다.

압축기 동적 응답의 대화형 방식 조정.

블록 다이어그램을 사용한 시스템 시뮬레이션

Simulink®의 오디오 처리 블록 라이브러리를 사용하여 시스템 모델을 설계하고 시뮬레이션할 수 있습니다. 대화형 방식 제어 및 동적 플롯을 사용하여 파라미터를 조정하고 시스템 동작을 시각화할 수 있습니다.

Simulink의 다중대역 동적 범위 컴프레서 화면.

실시간 오디오 프로토타이핑

MATLAB에서 대화형 실시간 청취 테스트를 통해 오디오 처리 알고리즘을 검증할 수 있습니다.

사용자 인터페이스를 통한 실시간 파라미터 조정

오디오 처리 알고리즘의 조정 가능한 파라미터에 대한 사용자 인터페이스를 자동으로 생성할 수 있습니다. Audio Test Bench 앱을 사용하여 개별 알고리즘을 테스트하고 자동 생성된 대화형 컨트롤로 프로그램을 실행하여 파라미터를 조정할 수 있습니다.

Audio Test Bench를 사용한 사용자 지정 3-대역 파라메트릭 EQ의 대화형 방식 조정.

파라미터 컨트롤 및 메시지 교환을 위한 MIDI 연결

MIDI 컨트롤 표면을 사용하여 MATLAB 알고리즘의 파라미터를 대화형 방식으로 변경할 수 있습니다. 모든 유형의 MIDI 메시지를 송수신하여 외부 하드웨어를 제어하거나 이벤트에 응답할 수 있습니다.

악기 합성기에 대해 MATLAB으로 작성된 MIDI 메시지 및 오디오 신호 흐름.

음향 측정 및 공간 오디오

시스템 응답을 측정하고, 신호를 분석하고 재며, 공간 오디오 처리 시스템을 설계할 수 있습니다.

표준 기반 측정 및 분석

녹음된 신호 또는 실시간 신호에 SPL(음압 레벨) 측정기와 음량 측정기를 적용할 수 있습니다. 옥타브 및 분수 옥타브 필터로 신호를 분석할 수 있습니다. 원본 녹음본에 표준 호환 A, C 또는 K 가중 필터를 적용할 수 있습니다.

2/3 옥타브 대역에서 서로 다른 SPL 측정값의 시각화.

임펄스 응답 측정

MLS(최대 길이 시퀀스)와 ESS(지수 스윕 사인 곡선)가 포함된 음향 및 오디오 시스템의 임펄스와 주파수 응답을 측정할 수 있습니다. Impulse Response Measurer 앱으로 시작할 수 있습니다. 프로그래밍 방식으로 가진 신호를 생성하고 시스템 응답을 추정하여 측정을 자동화할 수 있습니다.

 Impulse Response Measurer 앱

실내 임펄스 반응을 이용한 효율적인 컨벌루션

주파수 영역 오버랩 및 추가 또는 오버랩 및 저장 구현을 사용하여 긴 임펄스 응답을 가진 신호를 효과적으로 컨벌루션할 수 있습니다. 자동 임펄스 응답 분할을 사용하여 지연과 계산 속도 간에 절충할 수 있습니다.

44100Hz에서 22만 개의 샘플로우, 또는 5초 이상 지속되는 임펄스 응답.

공간 오디오

다양한 입체 음향 형식을 인코딩하고 디코딩할 수 있습니다. 공간적으로 샘플링된 HRTF(머리 관련 전달 함수)를 보간할 수 있습니다.

HRTF 측정값을 구할 수 있는 바람직한 음원 위치 및 가장 가까운 각도의 예.

오디오 플러그인 생성 및 호스팅

MATLAB에서 작성된 오디오 처리 알고리즘을 표준 오디오 플러그인으로 프로토타이핑할 수 있습니다. 외부 오디오 플러그인을 일반 MATLAB 객체로 사용할 수 있습니다.

오디오 플러그인 생성

사용자 인터페이스를 직접 설계할 필요 없이 MATLAB 코드에서 VST 플러그인, AU 플러그인, 독립형 실행 파일 플러그인을 직접 생성할 수 있습니다. 더 고도화된 플러그인을 프로토타이핑하려면 구축 준비된 JUCE C++ 프로젝트를 생성할 수 있습니다(MATLAB Coder™ 필요).

다중대역 파라메트릭 EQ 예제: MATLAB 코드에서 생성되고 REAPER에서 실행되는 VST 플러그인.

외부 오디오 플러그인 호스팅

외부 VST 및 AU 플러그인을 일반 MATLAB 객체로 사용할 수 있습니다. 플러그인 파라미터를 변경하고 프로그래밍 방식으로 MATLAB 배열을 처리할 수 있습니다. 또는 플러그인 파라미터와 사용자 인터페이스 및 MIDI 컨트롤의 연결을 자동화할 수 있습니다. 실행 효율성을 높이기 위해 MATLAB 코드에서 생성된 플러그인을 호스팅할 수도 있습니다.

오디오 잡음 제거(Accusonus ERA-N)를 위한 외부 VST 플러그인 및 MATLAB의 프로그램 인터페이스의 예.

임베디드 및 실시간 오디오 시스템 타겟팅

애드온 C 코드 생성 제품을 사용하여 소프트웨어 기기에서 오디오 처리 설계를 구현하고, 다중채널 오디오 인터페이스에 대한 연결을 자동화할 수 있습니다.

저가 및 모바일 기기

온보드 또는 외부 다중채널 오디오 인터페이스를 사용하여 Raspberry Pi™의 오디오 처리 설계를 프로토타이핑할 수 있습니다. Android® 또는 iOS 기기용 모바일 앱으로 대화형 제어판을 만들 수 있습니다.

Raspberry Pi 3 보드. 

무지연 시스템

적응형 잡음 제어, 보청기 검증 또는 최소 양방향 DSP 지연이 필요한 기타 응용 분야에 대한 단일 샘플 입출력이 포함된 오디오 처리 설계를 프로토타이핑할 수 있습니다. Simulink 모델에서 직접 Speedgoat 오디오 기기와 ST 디스커버리 보드를 대상으로 자동으로 타겟팅할 수 있습니다.

최신 기능

YAMNet 사운드 분류

딥러닝을 사용한 사운드 녹음 분류 (Deep Learning Toolbox 필요)

VGGish 오디오 임베딩

딥러닝을 사용한 하이 레벨 오디오 특징 추출 (Deep Learning Toolbox 필요)

일반화된 켑스트럴 계수 및 델타 특징

MFCC, GTCC, BFCC 및 기타 유형의 켑스트럴 계수, 청각 스펙트로그램 및 델타 특징 계산

비가청 주파수에 대한 옥타브 분석

octaveFilter, octaveFilterBank 및 splMeter를 사용하여 향상된 옥타브 필터 설계로 신호 분석

음향 변동

감지된 음향 변동 측정

특징 추출을 위한 GPU 가속

호환되는 GPU 카드를 사용하여 특징 추출을 위한 추가 함수 가속화 (Parallel Computing Toolbox 필요)

위 기능과 관련 함수에 대한 자세한 내용은 릴리스 정보를 참조하십시오.