구조로 구성된 데이터 세트가 있습니다. 나는 다수의 센서를 가지고 있으며, 각각 a
부터 d
까지의 4 가지 값을 가지고 있으므로 구조 D
은 D.sensorID
, D.a
, D.b
, D.c
및 D.d
을 포함합니다. 나는 판독 값의 분포에서 특이 치를 찾고 있습니다. 나는 데이터를 플로팅 제한을 선택하고 배열이 제한 이외의 수치와 sensorID 년대를 식별하고이를 저장하는 스크립트를 작성했습니다 :데이터 아웃 라이어 식별
aMax = 5;
aHighIndices = find(D.a>aMax);
aMin = 0;
aLowIndices = find(D.a<aMin);
aHighLength = size(aHighIndices);
for i = 1:aHighLength
A_hi(i) = D.sensorID(aHighIndices(i));
end
이 반복된다 a_Hi
, a_Low
, b_Hi
, 등 . 그리고 내가 함께 결과를 패치 :이 작업을 수행하는 더 간결한 방법은
outliers = [A_hi; A_low; B_low; B_hi; C_low; C_hi; D_low; D_hi];
있습니까? 높은 특이점을 찾기 위해 한번에 낮은 아웃 라이어를 찾기 위해 한번 :
방법론이 좋아 보입니다. 특이점을 찾는 다른 방법을 찾고 있다면 다른 방법이 있습니다. 각 센서의 평균 판독 값을 중심으로 2D 가우스를 생각해보십시오. 특정 센서 판독 값이 두 표준 편차가되면 아마도 이상 값으로 간주 할 수 있습니다. 이제 각 센서 주위에 고/저 임계 값을 설정하는 대신 각 센서에 법선을 맞추고 한 임계 값을 정의해야합니다. 즉, 한 포인트가 고려되기 전에 평균에서 몇 표준 편차가 떨어져 있어야합니다 이상 치. – kitchenette