Ground Truth

Ground truth란?

Ground truth란 AI 모델 출력값을 훈련 및 테스트하는 데 사용되는 실제 환경의 데이터를 지칭하는 용어입니다. Ground truth 데이터는 자율주행오디오 또는 음성 인식 같은 여러 AI 응용 사례에 필요합니다.

Ground truth 데이터는 다음의 두 가지 AI 알고리즘 개발 단계에 반드시 필요합니다.

  1. 모델 훈련: Ground truth 데이터가 훈련 데이터로 사용되며, 이 과정에서 알고리즘은 특정 응용 사례에 적합한 특징과 해법을 학습합니다.
  2. 모델 테스트: Ground truth 데이터가 테스트 데이터로 사용되며, 이 과정에서는 훈련된 알고리즘에 대한 모델 정확도를 테스트합니다.

Ground truth 데이터는 영상 데이터, 신호 데이터 또는 텍스트 데이터 등 다양한 형태를 띨 수 있습니다(그림 1). Ground truth 데이터를 수작업으로 구하려면 시간 소모가 클 수 있는데, MATLAB®영상, 신호, 오디오라이다 응용 사례에 대한 레이블 지정기 앱을 통해 이 과정을 신속하게 처리할 수 있습니다.

세 가지 유형의 데이터, 즉 신호(왼쪽 위), 영상(오른쪽 위), 텍스트(아래쪽)에 대한 Ground truth가 표시됩니다.

그림 1. 신호 데이터(왼쪽 위), 영상 데이터(오른쪽 위), 텍스트(아래) 형식의 ground truth 데이터.

Ground Truth 데이터 획득 방법

Ground truth 데이터를 생성하기 위해서는 Ground truth 레이블 지정이 필요합니다. 레이블 지정은 원시 데이터에 그 데이터의 의미를 특징짓는 레이블을 할당하는 과정입니다. 지도 학습 모델을 훈련하기 위해서는 레이블이 지정된 출력값이 필요합니다. 레이블 지정이 정확할수록 모델도 그만큼 더 정확해집니다. 많은 AI 모델은 정확한 결과를 생성하려면 레이블이 지정된 데이터 출력값이 수천 개 또는 수백만 개가 있어야 하므로 ground truth 데이터에 레이블을 수작업으로 지정하려면 시간 소모가 클 수 있습니다.

MATLAB에서 다음과 같은 레이블 지정기 앱을 통해 레이블 지정 과정을 완전히 자동화하거나 반자동화하여 수작업 레이블 지정에 드는 시간을 단축할 수 있습니다.

영상 레이블 지정

영상 레이블 지정기는 의미론적 분할에서의 픽셀 레이블 지정 및 객체 검출 워크플로에서의 경계 상자 등 영상 내 관심 영역에 레이블을 지정하는 데 유용합니다.

영상 레이블 지정은 영상 레이블 지정기 앱을 사용하여 Ground truth를 정의하는 것을 말합니다.

그림 2. 영상 레이블 지정기 앱을 사용하여 영상에 레이블 지정하기.

신호 레이블 지정

신호 레이블 지정기를 사용하면 시각화와 사용자 지정 함수를 통해 데이터, 레이블 특성, 관심 영역 및 지점을 탐색할 수 있습니다.

라이다 포인트 클라우드 레이블 지정은 라이다 레이블 지정기 앱을 사용하여 Ground truth를 정의하는 것을 말합니다.

그림 3. 신호 레이블 지정기 앱을 사용하여 신호에 레이블 지정하기.

라이다 레이블 지정

라이다 레이블 지정기는 3차원 객체 주변에 경계 상자를 만들고 군집화, 지상 평면 제거, 포인트 클라우드 데이터 추적에 대한 자동화 기법을 제공할 수 있습니다.

라이다 포인트 클라우드 레이블 지정은 라이다 레이블 지정기 앱을 사용하여 Ground truth를 정의하는 것을 말합니다.

그림 4. 라이다 레이블 지정기 앱을 사용하여 라이다 포인트 클라우드에 레이블 지정하기.

참조: deep learning, convolutional neural network