더 나은 AI 결과를 얻기 위한 제조 데이터 분석의 8단계

개요

제조 데이터는 다양한 형태를 띠고 있습니다. 일부 데이터는 와셔 구멍의 직경에서 통계적 이상값을 찾는 것과 같은 단순한 분석에 용이합니다. 원치 않는 소음이 발생하는 엔진을 사람이 분류하는 것과 같이 분석하기가 더 까다로운 데이터 유형도 있습니다.

머신러닝 및 AI(인공 지능) 모델이 이러한 까다로운 데이터의 처리를 도울 수 있습니다. 그러나 프로젝트의 결과는 실망스러운 경우도 있으며, 이는 특히 사람이 하는 해석과 분류를 대체하려고 시도하는 경우에 더욱 그렇습니다. 초기 AI 결과가 유망해 보일 수 있지만 시간이 지나면서 유지가 되지 않을 수 있습니다. 이는 데이터 분석, 분야별 전문지식, 혼란스러운 신호 사이의 단절로 인해 데이터를 올바르게 이해하지 못할 때 자주 발생합니다.

이러한 문제는 다음과 같은 질문을 통해 완화할 수 있습니다.

데이터에 교락 인자가 존재하는가?
데이터가 AI 모델에 가장 적합한 형태를 띠고 있는가?
머신러닝/AI 모델의 훈련에 필요한 정보가 데이터에 포함되어 있는가?
출력 데이터와 간헐적으로만 상관 관계를 갖는 신호가 입력 데이터에 포함되어 있는가?
훈련 데이터가 측정 시스템의 작동 범위를 완전히 커버하는가?
훈련 데이터가 필요한 변동성을 커버하지 않는 조건이 있는가?
현재 분류(또는 회귀) 공정이 얼마나 정확하며, AI 모델이 얼마나 정확할 것으로 기대할 수 있는가?

이 백서에서는 머신러닝/Al 경험이 부족한 엔지니어가 위의 질문에 답하는 데 도움이 되는 8가지 모범 사례 단계를 제공하여 원시 데이터에 대한 이해도를 증진해 향상된 결과를 달성할 수 있도록 합니다. 여기서는 이러한 문제를 조사하고 해결하는 데 사용할 수 있는 MATLAB^® 기능에 대해 다룹니다. 모범 사례는 오디오 데이터, 영상 데이터, 시계열 데이터를 다루는 3가지 시나리오를 통해 설명됩니다.

이러한 8가지 단계는 데이터를 이해하고 최대한 활용하기 위한 접근법을 제공합니다. 이들 단계는 다시 다음과 같은 네 부분으로 정리할 수 있습니다.

데이터의 특성 이해
수집된 데이터의 한계 이해
데이터 전처리 및 모델 훈련
결과 평가

데이터의 특성 이해

1. 전문가 의견 수집

검출해야 하는 측정된 특성을 만들어 내는 물리적 메커니즘과 경험적으로 이해할 수 있는 특성에 대한 의견을 수집합니다. 이를 통해 다음과 같은 질문을 함으로써 데이터 전처리 방법과 데이터 분류 방법에 대한 전략을 수립할 수 있습니다.

평균과 표준편차를 사용하여 데이터를 정규화해야 하는가 아니면 정규화로 인해 신호의 품질이 오히려 저하되는가? 다른 더 적절한 정규화 방법이 있는가?
빈도 분석이나 다른 수학적 관계를 사용한 데이터 변환을 통해 사람이, 그리고 나아가서는 AI가 더 쉽게 분류할 수 있을 것인가?
통계적 방법이나 그래픽 시각화를 사용하면 클래스의 구분이 사람에게 명확할 것인가? 또 그래서 AI 모델 훈련을 위한 특징 선택에 도움이 될 것인가?
어떤 종류의 신호 동작과 신호 수준이 예상되는가? 어떤 가정을 바탕으로 그러한 예상을 하게 되었나? 실험을 통해 신호 수준을 어떻게 검증할 수 있는가?

원인, 물리, 효과, 예상 데이터를 연결하는 워크플로 도식. — 이상적인 시나리오에서는 신호가 잡음의 영향을 받거나 다른 원치 않거나 의도하지 않은 요인에 의해 편향되지 않고 신호의 원인이 물리적인 효과로 나타나고 이상적인 조건에서 데이터에 기록됩니다.

2. 데이터 수집에서의 가정 이해

데이터 수집 과정에 영향을 미칠 수 있는 요인을 이해하면 아티팩트 발생 가능성을 완화하는 데이터 수집 및 데이터 전처리 전략을 설계하는 데 도움이 될 수 있는데, 이런 아티팩트가 제어되지 않으면 머신러닝/AI 접근법이 실패할 수 있습니다. 데이터를 수집할 때 질문할 수 있는 몇 가지 질문의 예는 다음과 같습니다.

사람 작업자가 당신이 인지하지 못하는 시각적 단서를 받을 수도 있는데도 소리에 의존해서만 결함을 검출한다는 가정이 있는가?
컨베이어 벨트 속도가 일정하다거나 기계 보정이 항상 일관적으로 수행된다는 가정이 있는가?
두 개의 오디오 앰프가 주파수 응답이 동일하다거나 동일한 영상 장면에 대한 카메라 두 대의 RGB 응답이 동일하다는 가정이 있는가?
두 명의 작업자가 동일한 방식으로 기계를 구동한다거나 온도가 데이터에 영향을 미치지 않는다는 가정이 있는가?

물리에는 교락 가변성을 더하고 실제 데이터에는 수집 아티팩트를 더하는 원인, 물리, 효과, 실제 데이터 블록이 포함된 워크플로 도식. — 실제 시나리오에서 물리 및 데이터 수집 하드웨어의 교락 변수는 신호의 원인이 물리적인 효과로 나타나고 데이터에 기록되는 방식에 영향을 미칩니다.

수집된 데이터의 한계 이해

3. 재현 가능한 데이터 수집

다음과 같은 질문을 함으로써 바람직한 측정 수량의 기반이 되는 물리적 메커니즘의 검출을 향상하는 동시에 교락 변수를 최대한 완화할 수 있는 방식으로 데이터를 수집해야 합니다.

데이터가 재현 가능한지 검증하기 위해 동일한 조건에서 측정을 반복할 수 있는가?
실행을 재현할 때 신호 수준 변동성이 어떤가?
새로운 데이터 수집 프로토콜과 같이 머신러닝/AI 시스템을 수용하기 위해 공정을 변경하는 경우, 어떻게 이런 변경으로 인해 예측에 필요한 데이터의 정보가 영향을 받지 않는지 확인할 수 있는가?

x축은 시간, y축은 신호를 나타내는 MATLAB 플롯. 여러 개의 측정값이 중첩되어 있습니다. — 동일한 조건에서 동일한 샘플을 여러 번 측정한 예. 이 경우 데이터는 일부 잡음 범위 내에서 반복이 가능한 것처럼 보입니다.

4. 데이터 확인을 위한 실험

머신러닝/AI 훈련에 영향을 미칠 수 있는 통제되지 않은 데이터 수집 요인의 영향을 평가하기 위한 실험을 수행합니다. 실험을 통해 이러한 통제되지 않은 요인의 영향이 어느 정도인지 평가하고 다음과 같은 질문에 답해 볼 수 있습니다.

어떤 변수가 데이터에 영향을 미치지 않는다는 가정 하에서 데이터에서 이 변수가 통제되지 않거나 표현되지 않는 경우, 그러한 가정을 확인하는 실험은 어떻게 수행하는가?
머신러닝/AI 정확도에 영향을 미칠 수 있는 시스템 드리프트를 검사하기 위해 시스템에 대해 주기적으로 측정할 수 있을 정도로 안정적인 알려진 물리적 표준 샘플을 확보할 수 있는가?
최종 모델에 영향을 미칠 수 있는 통제되지 않은 변동성을 검출하기 위해 시간 경과에 따라 나타나는 새로운 군집을 찾으려면 어떻게 비지도 학습(군집)을 사용하는가?
차원 축소를 위해 주성분 또는 기타 데이터 축소 접근법으로 상관관계가 높은 신호를 사용할 때 발생하는 과도한 영향을 완화하려면 어떻게 해야 하는가?

x축은 시간, y축은 신호를 나타내며 이전 플롯보다 측정값 간의 편차가 더 큰 MATLAB 플롯. — 위와 동일한 플롯이지만 극단적으로 범위를 벗어난 온도의 측정값이 반복됩니다. 이러한 극단적인 온도 데이터는 정상 작동 시 온도 변화의 영향을 엔지니어가 측정하는 데 도움이 될 수 있습니다. EM 간섭, 잡음 또는 기타 요인에 대해서도 동일한 접근법을 사용할 수 있으며, 이러한 요인들이 결합되면 훈련된 AI/머신러닝 모델에 유해한 영향을 미칠 수 있습니다.

데이터 전처리 및 모델 훈련

5. 데이터 전처리

이상적으로는 사람이 검출 또는 분류를 수행할 수 있는 상태가 될 때까지 데이터를 전처리하는 것이 좋습니다. 이렇게 전처리된 데이터는 정확한 머신러닝/AI 모델을 훈련시키는 데 더 적합할 가능성이 높습니다. 1~4단계를 통해 알아낸 내용을 전처리 전략에 활용하려면 어떻게 해야 할까요? 사람이 전처리된 데이터의 추세를 파악하기 쉬울수록 머신러닝/AI 모델도 더 쉽게 추세를 파악할 것입니다.
신호가 분명해야 할 극단적인 실험 조건의 상황(예: 극한의 온도)에서 신호를 포착할 수 없다면, 머신러닝/AI가 검출하거나 측정하기 위해 필요한 정보가 데이터에 포함되지 않은 것일 수 있습니다.
비지도 학습을 사용하여 예상되는 군집의 징후를 검사하고, 최종 모델에 대한 교락 요인을 나타낼 수 있는 예기치 않은 군집을 검출해야 합니다.

6. 훈련

우선, 데이터에 대한 단순한 모델을 사용하여 탐색적 훈련을 수행하고, 테스트 데이터를 사용하여 우수 모델이 될 가능성을 평가하여 기준선을 설정합니다. 이후 다음과 같은 작업을 수행하여 최적화합니다.

빠른 훈련 세션을 통해 다양한 머신러닝/AI 모델을 평가하여 어떤 모델이 가장 적합한지 평가합니다. 가장 단순한 유형의 모델을 사용하여 시작하세요. 모델 유형을 선택한 후에는 검증 데이터를 사용하여 과적합 검출을 통해 훈련 옵션을 최적화해야 합니다. 테스트 세트를 사용하여 본 적이 없는 데이터에 대해서도 모델이 우수하게 일반화되는지 확인할 수 있습니다.
더 단순한 모델의 결과에서 얻은 이해를 바탕으로 더 복잡한 모델의 구현에 접근하는 최적의 방법을 알아낼 수 있습니다.

결과 평가

7. 맹검 연구

맹검 연구를 수행하여 검출/분류에 대한 현재의 모범 사례와 새로운 머신러닝/AI 모델을 비교합니다.

맹검 연구를 통해 머신러닝/AI 동작을 현재 모범 사례와 비교합니다. 기존 접근법과 머신러닝/AI 접근법 모두에 대해 맹검 연구를 진행해야 합니다. 머신러닝/AI가 사람을 대신하는 경우, 그 결과도 사람에 대해 맹검 처리해야 합니다.
사람이 비교하는 경우, 작업자에게 추가적인 단서를 제공할 수 있는 순서가 어긋난 일련 번호나 표시 또는 레이블 등 다른 출처의 단서를 통제해야 합니다. 정밀도, 재현률, 혼동행렬 등 적절한 지표를 사용해야 합니다.

8. 검토, 재검토, 필요한 만큼 반복

5~6단계의 결과를 검토합니다. 검출해야 하는 특징을 부각시키기 위해 데이터를 사전 처리할 수 없고 6단계에서의 훈련 결과가 불충분한 경우 다음 작업을 수행합니다.
1. 검토 결과가 만족스럽지 않은 경우, 1~4단계를 다시 수행하여 검출해야 하는 특징을 가리는 신호 수준과 요인을 평가한 다음, 더 나은 데이터 수집 접근법을 개발하거나 검출해야 하는 특징을 부각시킬 수 있는 더 나은 전처리 접근법을 살펴봅니다.
2. 1~4단계를 다시 수행한 후 5~7단계를 반복하여 더 긴 기간의 테스트가 필요한지 또는 추가적인 개선이 필요한지 결정합니다.

예시 시나리오

오디오 데이터, 영상 데이터, 시계열 데이터를 다루는 다음 3가지 가상의 시나리오에서는 가상의 사용자가 이러한 모범 사례를 머신러닝/AI 프로젝트에 적용합니다. 사용자는 여러 단계에서 MATLAB을 사용합니다.

기계 생산에서의 오디오 데이터: 생산 라인에서 소음이 심한 드릴 감지

Ken은 생산 라인의 말단에서 생산된 드릴을 전원에 연결하고 직접 전원을 켜서 비정상적인 소음이 있는지 듣는 방식으로 드릴을 테스트하는 팀의 책임자입니다. Ken은 이 공정을 자동화하고 AI 모델을 사용하여 비정상적인 소음이 있는지 파악하고 싶어 합니다. 그는 비용 절감을 희망하지만, 수용 가능한 비즈니스 사례를 구축하기 위해서는 99% 이상의 불량 드릴을 포착해야 합니다.

Ken은 다음과 같이 모범 사례 체크리스트를 따릅니다.

전문가 의견 수집

Ken은 진동 최소화 작업을 담당하는 동료와 상의합니다. 해당 동료는 드릴을 어떻게 잡느냐에 따라 드릴의 소음이 달라진다고 조언합니다. Ken의 동료는 이 잠재적 문제를 완화하고 표준화된 플랫폼으로 활용할 수 있는 특수 장비를 가지고 있으며 Ken은 이 장비를 대여할 수 있습니다.

데이터 수집에서의 가정 이해

Ken은 제조 라인의 가동 중단 시간 동안 불량 드릴에 대한 데이터를 수집합니다. 동료는 제조 기계의 소음으로 인해 정상 데이터가 오염되었다고 지적합니다. Ken은 이상 감지를 사용하고 기계 소음이 이상 징후로 검출될 수 있으므로 AI에 과도한 영향을 미칠 수 있다는 것을 확인한 후, 결함이 없는 OK(양호) 데이터와 결함이 있는 NG(불량) 데이터에 기계 소음이 동등하게 존재하도록 데이터 수집 전략을 업데이트합니다. 그는 또한 양호한 드릴과 불량 드릴의 주요 부품에서도 차이를 확인할 수 있습니다. 그는 이 차이가 실제인지 확인하기 위해 데이터의 재현성을 검사하기로 결정합니다.

재현 가능한 데이터 수집

Ken은 제조 중 발생하는 소음을 수집하여 배경으로 들리는 제조 소음이 없는 NG 데이터를 보강합니다. 그리고 1단계와 2단계에서 얻은 이해를 바탕으로 드릴 장비를 사용하여 제조 소음이 있는 불량 드릴에서 새로운 데이터를 수집합니다. NG 드릴의 경우 일반적으로 여러 번 전원을 켜게 되는 반면 OK 드릴은 한 번만 전원을 켜므로, 1개의 양호한 드릴과 1개의 불량 드릴을 여러 번 녹음하여 드릴 소음의 반복성 또는 변화 여부를 검사합니다.

데이터 확인을 위한 실험

Ken은 웨이블릿 시간-주파수 분석기 앱을 사용하여 동일한 드릴의 여러 녹음본 간에 거의 차이가 없는 것을 검증하고 양호한 드릴과 불량 드릴의 차이를 시각화할 수 있습니다. 그는 오디오 특징 추출을 위해 다양한 접근법을 시도하고, 우수한 분류 정확도를 달성하는 SVM(서포트 벡터 머신) 분류기를 훈련시킵니다. 그는 fitcauto() 또는 분류 학습기 앱을 사용하여 다양한 머신러닝 모델과 하이퍼파라미터를 평가해 분류 정확도를 향상할 수 있습니다.

데이터 전처리

Ken은 데이터 처리를 표준화하고 audioDataAugmenter를 사용하여 데이터에 별도로 변동을 추가합니다. 그런 다음 웨이블릿 시간-주파수 분석기를 사용하여 최적의 파라미터를 가진 웨이블릿을 살펴보고 cwt()를 사용하여 훈련용 코드에서 데이터를 처리합니다.

훈련

Ken은 cvpartition을 사용하여 데이터를 훈련, 검증 및 테스트 세트로 나눕니다. 그런 다음 실험 관리자 앱을 사용하여 다양한 파라미터를 적용하여 CNN(컨벌루션 신경망)을 훈련시킵니다. 그는 CNN의 훈련 파라미터와 영상을 형성하기 위해 데이터를 전처리하는 데 사용되는 웨이블릿 변환으로 실험을 수행합니다. 데이터에 대해 훈련하기 위해 전이 학습을 사용하여 사전 훈련된 AI를 수정합니다. 그는 시각화 및 설명 가능성 방법을 사용하여 AI 모델의 예측을 추가적으로 검증하고 디버그할 수 있습니다.

맹검 연구

Ken은 새로운 데이터를 수집하여 익명 처리한 다음 팀원들에게 데이터를 듣고 양호한 데이터와 불량 데이터로 분류하도록 합니다. Ken의 팀은 오디오 데이터만으로는 결과가 좋지 않았으며, 훈련을 시각적으로 검사하는 것이 양호 또는 불량 여부를 판단하는 데 영향을 미친다는 사실을 발견합니다.

검토, 재검토, 필요한 만큼 반복

Ken은 그의 팀이 시각적 검사를 할 수 있다면 더 나은 성과를 내지만 오디오만 있는 조건에서는 CNN이 그의 팀과 동일한 수준의 성과를 보인다는 것을 알게 되었습니다. Ken은 향후 개선을 위해 AI에 외관 검사를 추가하는 것을 고려할 수 있습니다.

의료기기의 영상 데이터: 사전충전형 주사기에서 오염 물질 검출

Jen은 사전충전형 인슐린 주사기에서 오염 물질을 식별하는 AI의 개발 계약을 체결했습니다. 그녀는 결함 유형에 대한 메모와 함께 결함이 있는 주사기에 대한 영상을 받았습니다. 그녀는 훈련을 받지 않았기 때문에 일부 결함을 식별할 수 없습니다. 이 회사는 주사기를 대량으로 제조하기 때문에 100% 수작업 검사는 불가능합니다. 따라서 이러한 결함을 검출할 수 있다면 리콜 문제를 줄이는 데 도움이 될 것입니다.

Jen은 다음과 같이 모범 사례 체크리스트를 따릅니다.

전문가 의견 수집

Jen은 고객에게 영상에서 결함을 명확하게 동그라미로 표시해 달라고 요청합니다. 결함은 주사기 내외부의 입자, 긁힘 또는 얼룩일 수 있습니다. 그러므로 주사바늘 전체가 포함되어야 합니다. 일부 영상에는 램프 빛 반사가 있으며, 이를 줄일 수 있는 가장 좋은 방법은 편광자를 사용하는 것이라고 고객에게 조언합니다.

데이터 수집에서의 가정 이해

Jen은 회전, 자르기, 정규화를 통해 영상을 표준화합니다. 전처리 및 익명화된 영상을 고객에게 다시 보냅니다. 전처리로 인해 숙련된 기술자가 분류를 수행하기 위해 필요한 정보가 소실되지 않았음을 고객의 피드백을 통해 확인합니다.

재현 가능한 데이터 수집

Jen은 어떤 것이 결함이 아닌지에 대한 감을 잡고 가능한 영상의 다양성을 늘리기 위해 고객에게 더 많은 양호한 영상의 표본을 요청합니다.

데이터 확인을 위한 실험

Jen은 imageDatastore를 사용하여 영상을 처리합니다. 차이를 파악하기 위해 정합 추정기 앱, 영상 정합, imsubtract()를 사용하여 주사기를 중첩시켜 차이점을 찾습니다. 그리고 AI 모델을 훈련시켜 영상에서 이상을 검출합니다. Jen은 이상 히트맵을 확인하여 주사기 결함이 어디서 발생할 수 있는지에 대한 이해도를 높일 수 있었습니다.

데이터 전처리

Jen은 첫 세 단계를 토대로 전처리 전략을 고안합니다. 그녀는 createMask()를 사용하여 AI 모델을 훈련할 때 제외해야 하는 배경(탁상)을 제거합니다. 영상 레이블 지정기를 사용하여 boxLabelDatastore를 생성해 다양한 결함 유형에 대해 AI를 훈련시킵니다. 그리고 영상 증대를 사용하여 영상을 변경해 더 큰 훈련 세트를 생성하고 bboxwarp()를 사용하여 변경된 영상의 경계 상자를 조정하여 훈련 영상을 증대합니다.

훈련

Jen은 YOLOX 객체 검출기를 사용하여 결함 유형을 검출합니다. 예비 분류 후, 그녀는 한 클래스에 대해 더 자주 오분류가 발생하는 것을 관찰합니다. 그녀는 해당 클래스에 대해 더 많은 훈련 데이터를 추가하고 분류 오류가 줄어드는 것을 확인합니다.

맹검 연구

Jen은 앱 디자이너를 사용하여 AI를 패키징하고 고객이 테스트할 수 있도록 MATLAB Compiler™를 사용하여 컴파일합니다. 컴파일된 앱에는 MATLAB 라이선스가 필요하지 않습니다.

검토, 재검토, 필요한 만큼 반복

고객이 AI 앱을 테스트하고 오분류된 영상의 표본을 보내면 Jen은 두 번째 훈련을 수행할 수 있습니다.

Moffitt Cancer Center Uses Machine Learning to Accelerate Cancer Research — Moffitt Cancer Center - 머신러닝을 사용한 암 연구 가속화 사례

가스 터빈 밸브의 초기 고장 예측

Ben은 출시 전 장비 테스트 데이터를 기반으로 머신러닝/AI를 사용하여 회사의 MT(마이크로터빈)가 출시된 후 초기 고장이 발생할지 여부를 예측하는 업무를 맡게 되었습니다. 그는 수많은 장비 테스트 데이터를 가지고 있지만, 고장 이벤트 직전 및 도중의 데이터셋은 단 하나뿐입니다. 고장이 발생하는 경우는 드물지만, 회사의 고객에게는 심각한 영향을 미칩니다.

Ben은 다음과 같이 모범 사례 체크리스트를 따릅니다.

전문가 의견 수집

Ben은 이 고장이 100~200시간 사용 시 압축기의 베어링 손상을 유발하는 이물질과 관련이 있는 것으로 보이지만, 그 원인은 알 수 없다는 사실을 알게 됩니다.

데이터 수집에서의 가정 이해

장비 테스트의 일관성을 유지하기 위해 많은 노력을 기울였습니다. 데이터 수집에서 남아있는 변수는 주변 온도, 압력, 오일 및 연료 성분, 통제가 어려운 작업자 등의 요인으로 인한 것이었습니다.

재현 가능한 데이터 수집

Ben에게는 고장에 대한 데이터 표본이 하나밖에 없으므로 디지털 트윈을 생성합니다. Simulink^® 가스 터빈 모델로 시작하여, 이물질이 있는 베어링의 거동을 포함하도록 업데이트하고 파라미터 추정기 앱으로 조정해 실제 가스 터빈을 모방합니다.

데이터 확인을 위한 실험

Ben은 양호한 데이터와 하나의 고장 데이터 표본을 토대로 모델을 사용하여 베어링 손상을 시뮬레이션합니다. 시뮬레이션 모델 데이터에서 고장 100시간 전의 고장 징후 신호는 실제 데이터의 잡음보다 작을 것으로 예측됩니다. Ben은 합성 잡음을 추가한 다음, 확장 칼만 필터를 통해 결함 추세를 검출할 수 있다는 것을 알게 됩니다.

데이터 전처리

Ben은 진동 신호 및 주파수-RPM 맵 변화를 사용하여 모델 데이터에 대한 검사를 통해 베어링 손상이 전체 시스템에서 나타나는 양상을 확인하고 실제 데이터에서 무엇을 찾아야 하는지를 이해합니다. 실제 데이터에서는 시간 단위(초)의 신호를 주파수 단위(Hz)로 변환해야 합니다. 데이터에는 여러 공직선성 신호가 있습니다. Ben은 데이터 축소를 위해 주성분을 사용합니다.

훈련

짧은 시간 동안의 고주파 잡음은 신호를 가릴 것으로 예상되지만 시간이 경과함에 따라 저주파 드리프트를 통해 결함이 드러날 것이므로 Ben은 장기적인 추세를 검출할 수 있는 LSTM을 시도하기로 결정합니다. 확장된 테스트를 통해 LSTM은 모델 데이터를 기반으로 하여 문제를 나타내는 작은 드리프트(성능 저하)를 검출할 수 있는 것으로 나타났습니다.

맹검 연구

Ben은 더 큰 데이터셋에 대해 LSTM을 훈련시키고 모델 데이터를 사용하여 실제 시스템에서 검출 가능 범위를 평가하는 맹검 연구를 설정합니다.

검토, 재검토, 필요한 만큼 반복

Ben은 고장과 관련된 소규모 드리프트를 검출하기 위해 터빈 장비 테스트 시간을 늘려야 한다는 사실을 발견하고, 이를 검출하기 위한 터빈 테스트 비용 증가를 정당화하기 위한 비용-편익 분석을 준비합니다.

Ben은 원시 양호 데이터에 이상 감지 툴을 사용하여 높은 주변 온도와 특정 작업자가 이상 검출기의 임계값을 벗어난 이상값과 연관되어 초기 고장 이벤트로 연결될 가능성이 높다는 것을 파악합니다. 이와 관련해서는 더 많은 조사가 필요합니다.

딥러닝 및 머신러닝을 사용한 신호 처리 응용 사례의 데이터 정리 및 전처리 외의 팁에 대해 자세히 알아보세요.

결론

머신러닝/AI 모델은 생산 환경에서 지루하고 오류가 발생하기 쉬운 수작업 테스트 및 QA 작업을 대체할 수 있습니다. 생산 환경에서의 고장은 심각하지만 드물게 발생하므로 근본 원인을 파악하는 것이 어려울 수 있습니다.

이로 인해 신뢰성 있게 머신러닝/AI 솔루션을 구축하는 것이 어렵다고 생각될 수 있습니다. 하지만 데이터를 이해한다면 훈련에서 사용할 수 있는 우수한 데이터셋을 생성할 수 있습니다.

위의 8가지 단계와 예시 시나리오를 사용하면 데이터 품질에 대한 더욱 체계적인 접근법을 적용하고 머신러닝/AI 개념과 성공적인 구현 사이의 간극을 좁힐 수 있을 것입니다.

MATLAB이 그 목표에 도달하도록 도울 수 있습니다.

MATLAB 툴스트립 중 일부 앱의 스크린샷: 데이터 정리기, 영상 레이블 지정기, 분류 학습기, 신호 분석기, 웨이블릿 시간-주파수 분석기, Audio Labeler, 웨이블릿 분석기 — 머신러닝 및 오디오, 영상, 시계열 데이터 작업을 위한 MATLAB 앱.

저자 정보

Mike Simcock은 MathWorks의 시니어 컨설턴트로, AI 및 기타 응용 분야의 데이터 처리를 요하는 실제 데이터를 사용하는 프로젝트를 담당하고 있습니다. MathWorks 입사 전 Mike는 Altran에서 시니어 컨설턴트와 Malvern Instruments, Halliburton 및 Ometric에서 수석 R&D 과학자 직책을 역임했습니다. Mike는 University of Salford에서 화학 학사 학위와 반도체 재료 박사 학위를 취득했습니다. 동료 평가를 거친 여러 실험 데이터 관련 논문을 저술했으며, 박막 광학 제조 및 광학 계측 응용 관련 특허를 약 20개 보유하고 있습니다. MATLAB 사용은 이러한 직책들에서 항상 그 중심에 있었습니다.