Ground truth란?
Ground truth란 AI 모델 출력값을 훈련 및 테스트하는 데 사용되는 실제 환경의 데이터를 지칭하는 용어입니다. Ground truth 데이터는 자율주행과 오디오 또는 음성 인식 같은 여러 AI 응용 사례에 필요합니다.
Ground truth 데이터는 다음의 두 가지 AI 알고리즘 개발 단계에 반드시 필요합니다.
- 모델 훈련: Ground truth 데이터가 훈련 데이터로 사용되며, 이 과정에서 알고리즘은 특정 응용 사례에 적합한 특징과 해법을 학습합니다.
- 모델 테스트: Ground truth 데이터가 테스트 데이터로 사용되며, 이 과정에서는 훈련된 알고리즘에 대한 모델 정확도를 테스트합니다.
Ground truth 데이터는 영상 데이터, 신호 데이터 또는 텍스트 데이터 등 다양한 형태를 띨 수 있습니다(그림 1). Ground truth 데이터를 수작업으로 구하려면 시간 소모가 클 수 있는데, MATLAB®은 영상, 신호, 오디오 및 라이다 응용 사례에 대한 레이블 지정기 앱을 통해 이 과정을 신속하게 처리할 수 있습니다.
Ground Truth 데이터 획득 방법
Ground truth 데이터를 생성하기 위해서는 Ground truth 레이블 지정이 필요합니다. 레이블 지정은 원시 데이터에 그 데이터의 의미를 특징짓는 레이블을 할당하는 과정입니다. 지도 학습 모델을 훈련하기 위해서는 레이블이 지정된 출력값이 필요합니다. 레이블 지정이 정확할수록 모델도 그만큼 더 정확해집니다. 많은 AI 모델은 정확한 결과를 생성하려면 레이블이 지정된 데이터 출력값이 수천 개 또는 수백만 개가 있어야 하므로 ground truth 데이터에 레이블을 수작업으로 지정하려면 시간 소모가 클 수 있습니다.
MATLAB에서 다음과 같은 레이블 지정기 앱을 통해 레이블 지정 과정을 완전히 자동화하거나 반자동화하여 수작업 레이블 지정에 드는 시간을 단축할 수 있습니다.
영상 레이블 지정
영상 레이블 지정기는 의미론적 분할에서의 픽셀 레이블 지정 및 객체 검출 워크플로에서의 경계 상자 등 영상 내 관심 영역에 레이블을 지정하는 데 유용합니다.
신호 레이블 지정
신호 레이블 지정기를 사용하면 시각화와 사용자 지정 함수를 통해 데이터, 레이블 특성, 관심 영역 및 지점을 탐색할 수 있습니다.
라이다 레이블 지정
라이다 레이블 지정기는 3차원 객체 주변에 경계 상자를 만들고 군집화, 지상 평면 제거, 포인트 클라우드 데이터 추적에 대한 자동화 기법을 제공할 수 있습니다.