3장
훈련 데이터의 품질 및 수량 개선하기
데이터에 잡음이 있어서 좋은 경우는 어떤 때일까요? 그 잡음이 실제 상태를 정확하게 반영할 때입니다.
음성 응용 사례의 경우 일반적인 기존 대용량 데이터셋은 실제 응용 사례의 시나리오와는 다른 방식으로 녹음됩니다. 음성 트리거 단어를 인식해야 하는 응용 사례라면 저품질 마이크, 특정 유형의 잔향 및 배경 잡음에 대처할 수 있어야 합니다.
정립된 신호 처리 방법 및 영역 특정 응용 사례를 사용하여 다음과 같은 방법을 통해 이러한 효과 및 기타 효과를 인공적으로 추가하면 훈련 데이터셋을 늘릴 수 있습니다.
- 데이터 증대
- 데이터 합성
대용량 데이터셋을 구축하기 위해 신호를 지속적으로 측정하거나 관찰하기가 어려울 수 있습니다. 이 장에서는 더 많은 훈련 데이터를 생성하기 위한 기법을 살펴봅니다. 데이터 합성을 통해 모델 또는 시뮬레이션에서 새로운 신호를 생성할 수 있으며, 데이터 증대는 특정 유형의 데이터 합성으로서 기존 데이터의 새로운 변형을 생성합니다.
데이터 증대
기존의 레이블이 지정된 샘플에서 시작하여 증대를 통해 다음을 생성할 수 있습니다.
- 보유하고 있는 고품질의 검증 데이터와 유사한 훈련 데이터
- 시스템이 실제 시나리오에서 마주할 수 있는 가용 데이터의 변형
증대 효과는 대개 영역 특정적입니다. 일반적인 오디오, 음성 및 음향 데이터 관련 증대 효과 에는 타임 스트레칭, 피치 시프팅, 볼륨 제어 등 여러 가지가 있습니다.
주방 잔향

세탁기 잡음

합성
데이터 합성은 AI 생성 모델 또는 시뮬레이션의 조합을 사용하여 없는 훈련 데이터를 새로 생성하는 것을 포함합니다.
영역 특정 데이터 합성의 몇 가지 예제는 다음과 같습니다.
MATLAB의 text2speech
함수 는 Google의 잘 알려진 Wavenet 신경망을 비롯하여 IBM, Microsoft 또는 Google의 클라우드 기반 서비스를 사용하여 고품질 합성 음성 신호를 생성할 수 있습니다.

이 예제는 딥러닝 신경망과 시간-주파수 분석을 사용하여 마이크로 도플러 특징을 기반으로 보행자와 자전거 운전자를 분류하는 방법을 보여줍니다. 레이더 앞에 위치한 객체의 다양한 부분이 움직이면 객체 식별에 사용할 수 있는 마이크로 도플러 시그니처가 생성됩니다.

통신 신호 역시 현장에서 바로 기록하여 이후 레이블을 지정하기가 매우 어렵습니다. WLAN 라우터 위장 검출 예제는 RF 핑거프린팅을 위한 현실적인 신호를 시뮬레이션합니다. 이 알고리즘을 적용하면 소프트웨어 정의 무선 통신에서 수집된 데이터를 사용해서 시스템을 훈련하고 동일한 시스템을 실제 데이터로 테스트할 수 있습니다.

웹사이트 선택
번역된 콘텐츠를 보고 지역별 이벤트와 혜택을 살펴보려면 웹사이트를 선택하십시오. 현재 계신 지역에 따라 다음 웹사이트를 권장합니다:
또한 다음 목록에서 웹사이트를 선택하실 수도 있습니다.
사이트 성능 최적화 방법
최고의 사이트 성능을 위해 중국 사이트(중국어 또는 영어)를 선택하십시오. 현재 계신 지역에서는 다른 국가의 MathWorks 사이트 방문이 최적화되지 않았습니다.
미주
- América Latina (Español)
- Canada (English)
- United States (English)
유럽
- Belgium (English)
- Denmark (English)
- Deutschland (Deutsch)
- España (Español)
- Finland (English)
- France (Français)
- Ireland (English)
- Italia (Italiano)
- Luxembourg (English)
- Netherlands (English)
- Norway (English)
- Österreich (Deutsch)
- Portugal (English)
- Sweden (English)
- Switzerland
- United Kingdom (English)