Main Content

진단 특징 디자이너에서 특징 히스토그램 해석하기

어떤 특징이 상태 변수 레이블이 서로 다른 데이터 그룹을 명확히 구분해 낸다면 그 특징은 효과적입니다. 진단 특징 디자이너는 다양한 특징 옵션을 제공하지만, 가장 효과적인 특징이 무엇인지는 데이터와 그 데이터가 나타내는 시스템 및 상태에 따라 달라집니다.

특징이 얼마나 효과적인지에 대한 예비 평가를 수행하기 위해 특징 히스토그램을 평가할 수 있습니다. 히스토그램 플롯은 레이블이 지정된 그룹 간의 분리를 시각화합니다. 이를 위해 히스토그램은 데이터 분포를 비닝하고 색을 사용하여 각 Bin 내의 레이블 그룹을 식별합니다. 히스토그램을 사용자 지정하여 시각화를 향상시키고 관심 특징의 정보를 강조 표시할 수 있습니다. 그룹 분포 간 분리에 대한 수치 정보를 볼 수도 있습니다.

히스토그램을 사용하면 특징이 얼마나 효과적인지 조기에 파악할 수 있습니다. 특수한 통계적 방법을 사용하여 보다 엄격한 정량적 평가를 수행하려면 진단 특징 디자이너를 사용하여 앙상블 데이터 탐색 및 특징 비교하기 항목의 특징에 순위 지정하기에 설명된 대로 순위 지정을 사용하십시오. 특징 순위 지정 계산은 히스토그램 분석 중에 이루어지는 사용자의 시각적 선택과는 무관합니다.

다음 그림은 분리 시각화를 보여줍니다. 이 예제에서는 샘플 크기가 상대적으로 작기 때문에 차이가 과장됩니다.

두 플롯 모두에서 2-상태 상태 코드는 faultCode입니다. 값 0(파란색)은 정상 시스템을 나타내고 값 1(주황색)은 결함 시스템을 나타냅니다. 히스토그램은 Vibration 신호의 파고율과 첨도를 나타냅니다.

파고율 히스토그램은 다음을 보여줍니다.

  • 모든 정상 시스템 특징 값은 첫 번째 Bin의 범위 내에 있습니다.

  • 대부분의 결함 시스템 값은 나머지 세 개 Bin에 속합니다.

  • 첫 번째 Bin에는 결함 시스템의 데이터도 일부 포함되어 있지만 정상 시스템 데이터에 비해 그 양이 적습니다.

이 경우, 히스토그램은 파고율 특징이 정상 동작과 결함 동작을 잘 구분하지만 완전하지는 않음을 나타냅니다.

대조적으로 첨도 히스토그램은 다음을 보여줍니다.

  • 첫 번째 Bin 범위 내의 값을 가진 데이터는 항상 결함 데이터입니다.

  • 다른 Bin 범위 내에 있는 데이터는 정상 그룹과 결함 그룹 모두에서 옵니다. 이러한 영역에서는 결함 상태가 모호합니다.

이 두 개 히스토그램에서 파고율 특징이 첨도 특징보다 더 효과적임을 추론할 수 있습니다.

이 앱은 히스토그램을 사용자 지정하기 위한 대화형 도구를 제공합니다. 예를 들어, Bin 너비를 변경하거나, 그룹을 지정하는 상태 변수를 변경하거나, 히스토그램에 적용되는 정규화를 수정하여 히스토그램 분해능을 높일 수 있습니다. 앱에서 히스토그램을 사용자 지정하는 방법에 대한 자세한 내용은 특징 히스토그램 생성 및 사용자 지정하기 항목을 참조하십시오.

다중 클래스 상태 변수에 대한 특징 히스토그램 해석하기

상태 변수에 두 개 이상의 상태, 즉 두 개 이상의 클래스가 있는 경우 추가적인 색상 조합으로 인해 결과 히스토그램만으로는 해석하기가 더 어려울 수 있습니다. 예를 들어, 결함 코드가 정상 상태인 fault1fault2 외에도 두 개의 독립적인 결함 상태를 더 나타낼 수 있다고 가정해 보겠습니다. 다음 그림은 이전 히스토그램과 유사하지만 이러한 3-클래스 상태 변수에 대응되는 히스토그램을 보여줍니다.

수치적 그룹 거리를 확인하여 특징의 효과에 대한 추가 정보를 얻을 수 있습니다. 그룹 거리 표시 옵션은 각 상태 변수 클래스 조합에 대해 값 KS 통계량을 제공합니다. KS 통계량은 2-표본 콜모고로프-스미르노프 검정을 사용하여 두 클래스의 분포의 누적 분포 함수가 얼마나 잘 분리되었는지 나타냅니다.

다음 표에서는 이전 히스토그램에 대응되는 그룹 거리를 보여줍니다.

KS 통계량은 faultCode 값의 모든 쌍 사이의 분리를 나타냅니다. 통계량 값의 범위는 0부터 1까지입니다. 여기서 0은 분포 사이에 분리가 없음을 나타내고 1은 완전한 분리를 나타냅니다.

2-클래스 faultCode와 같은 파고율 특징의 경우 정상 fault0 데이터와 결함 fault1 데이터 사이의 구분은 KS 통계량이 1이므로 강합니다. fault1 데이터와 fault2 데이터 간의 구분도 강합니다. 그러나 fault0 데이터와 fault2 데이터 간의 구분은 상대적으로 열악합니다.

첨도 특징의 경우, 모든 쌍에서 쌍 간의 구분이 상대적으로 열악합니다.

KS 통계량에 대한 자세한 내용은 kstest2를 참조하십시오.

특징 히스토그램 생성 및 사용자 지정하기

특징 테이블에서 특징 히스토그램 세트를 생성하려면 다음을 수행하십시오.

  • 데이터 브라우저의 특징 테이블 섹션에서 특징 테이블을 선택합니다.

  • 플롯 갤러리에서 히스토그램 아이콘을 클릭합니다.

분리 시각화를 최적화하려면 히스토그램을 사용자 정의하십시오. 히스토그램 탭은 히스토그램을 수정하여 해석을 향상시킬 수 있는 파라미터를 제공합니다.

특징 선택하기

기본적으로 앱은 모든 특징에 대한 히스토그램을 플로팅하고 알파벳 역순으로 표시합니다. 특징의 더 작은 세트를 집중적으로 살펴보려면 특징 선택을 클릭하십시오.

상태 변수로 데이터 그룹화하기

가져온 모든 상태 변수에 대해 히스토그램 세트의 데이터를 그룹화할 수 있습니다. 이 상태 변수는 시스템 건전성을 나타낼 수 있습니다. 변수는 온도 또는 기계 모드와 같은 동작 상태일 수도 있습니다. 색상 코드별로 그룹화할 상태 변수를 선택하려면 그룹화 기준에서 변수를 선택하십시오.

그룹 분리 거리 표시하기

다중 클래스 상태 변수에 대한 특징 히스토그램 해석하기 항목에서 설명한 그룹 분리 거리, 즉 KS 통계량을 표시하려면 그룹 거리 표시를 클릭하십시오. 이 옵션은 각 상태 변수 값 쌍에 대한 그룹 분리 값을 제공하는 테이블을 표시합니다. 창에서 검토할 특징을 선택합니다.

Bin 설정 수정하기

기본적으로 앱은 Bin 크기를 자동으로 결정합니다. Bin 너비에 다른 값을 입력하거나 대체 비닝 방법을 선택하여 자동화를 재정의할 수 있습니다. Bin 설정은 특징 테이블의 모든 히스토그램에 적용됩니다.

Bin 너비, 비닝 방법 및 Bin 개수에 대한 설정은 독립적이지 않습니다. 알고리즘은 우선 순위를 사용하여, 사용할 항목을 결정합니다.

  • 비닝 방법은 Bin 너비를 결정하는 디폴트 요소입니다.

  • Bin 너비 사양은 비닝 방법을 재정의합니다.

  • Bin 너비 및 이와 독립적인 Bin 제한이 Bin 개수를 결정합니다. Bin 개수 사양은 데이터 그룹화가 없는 경우에만 유효합니다.

비닝 알고리즘 수정하기

기본적으로 진단 특징 디자이너는 균일한 Bin 너비를 갖는 Bin을 반환하는 자동 비닝 알고리즘을 사용합니다. 이 알고리즘은 데이터 범위를 포괄하고 분포의 기본 형태를 표시할 수 있는 Bin 설정을 선택합니다. 비닝 알고리즘을 변경하려면 비닝 방법 메뉴에서 선택하십시오.

비닝 알고리즘에 대한 자세한 내용은 histogram에서 ‘BinMethod’ 설명을 참조하십시오.

Bin 너비를 지정하여 분해능 높이기

검토 중인 특징에 대해 ‘auto’ 설정이 제공하는 너비보다 좁은 너비를 지정하여 데이터 분해능을 높입니다. 예를 들어, 다음 그림은 2개의 결함 코드 값과 2개의 특징에 대한 데이터 분리를 보여주는, 앞부분에 나와 있는 히스토그램을 다시 보여줍니다. 파고율의 경우 첫 번째 Bin에는 정상 데이터와 저하 데이터가 서로 섞여 있습니다.

파고율 특징에 대한 Bin 너비는 0.1입니다. Bin 너비를 0.05로 줄이면 아래에 표시된 것처럼 히스토그램이 변경됩니다.

이제 정상 파고율 데이터가 첫 번째 Bin으로 분리되고 나머지 Bin에는 비정상 데이터만 포함됩니다. 그러나, 지정된 Bin 너비가 모든 특징에 적용되므로 첨도 히스토그램에서 분해능이 손실되었습니다.

Bin 제한을 변경하여 바깥쪽 데이터 제외하기

일부 특징 분포에만 관심이 있는 경우 Bin 제한을 사용하여 관심 영역 밖에 있는 데이터를 제외시키십시오. [lower upper] 형태로 원하는 제한을 입력합니다. 이 선택 사항은 그룹 거리 테이블의 KS 통계량 계산에 영향을 주지 않습니다.

정규화 방법 변경하기

디폴트 히스토그램에서 y축에는 모든 특징에 대해 각각 0부터 1까지의 범위를 갖는 확률이 사용됩니다. 동일한 스케일로 여러 히스토그램을 표시하면 시각적으로 쉽게 비교할 수 있습니다. 정규화 메뉴에서 다른 축 설정을 선택하십시오. 이러한 방법에는 원시 데이터의 도수 및 통계 메트릭(예: CDF)이 포함됩니다.

참고 항목

| |

관련 항목