eBook

AI 탑재 신호 처리 응용 프로그램에서의 데이터 및 모델링

3장: 훈련 데이터의 품질 및 수량 개선하기

3장

훈련 데이터의 품질 및 수량 개선하기


데이터에 잡음이 있어서 좋은 경우는 어떤 때일까요? 그 잡음이 실제 상태를 정확하게 반영할 때입니다.

음성 응용 사례의 경우 일반적인 기존 대용량 데이터셋은 실제 응용 사례의 시나리오와는 다른 방식으로 녹음됩니다. 음성 트리거 단어를 인식해야 하는 응용 사례라면 저품질 마이크, 특정 유형의 잔향 및 배경 잡음에 대처할 수 있어야 합니다.

정립된 신호 처리 방법 및 영역 특정 응용 사례를 사용하여 다음과 같은 방법을 통해 이러한 효과 및 기타 효과를 인공적으로 추가하면 훈련 데이터셋을 늘릴 수 있습니다.

  • 데이터 증대
  • 데이터 합성

대용량 데이터셋을 구축하기 위해 신호를 지속적으로 측정하거나 관찰하기가 어려울 수 있습니다. 이 장에서는 더 많은 훈련 데이터를 생성하기 위한 기법을 살펴봅니다. 데이터 합성을 통해 모델 또는 시뮬레이션에서 새로운 신호를 생성할 수 있으며, 데이터 증대는 특정 유형의 데이터 합성으로서 기존 데이터의 새로운 변형을 생성합니다.

절

데이터 증대

기존의 레이블이 지정된 샘플에서 시작하여 증대를 통해 다음을 생성할 수 있습니다.

  • 보유하고 있는 고품질의 검증 데이터와 유사한 훈련 데이터
  • 시스템이 실제 시나리오에서 마주할 수 있는 가용 데이터의 변형

증대 효과는 대개 영역 특정적입니다. 일반적인 오디오, 음성 및 음향 데이터 관련 증대 효과 에는 타임 스트레칭, 피치 시프팅, 볼륨 제어 등 여러 가지가 있습니다.

주방 잔향

주방 잔향 신호와 데이터 증강을 위한 MATLAB 코드.

세탁기 잡음

세탁기 잡음 신호와 데이터 증강을 위한 MATLAB 코드.
절

합성

데이터 합성은 AI 생성 모델 또는 시뮬레이션의 조합을 사용하여 없는 훈련 데이터를 새로 생성하는 것을 포함합니다.

영역 특정 데이터 합성의 몇 가지 예제는 다음과 같습니다.

지식 테스트