각 서버의 가동 시간 및 성능 데이터 목록을 만드는 파이썬 스크립트가 있습니다. 각 하위 목록 (또는 '행')에는 특정 클러스터의 통계가 들어 있습니다.데이터 세트의 아웃 라이어 찾기
[[ams-a,98.099,1012,678,91],[bos-a,98.099,1111,12,91],...]
내 질문 :
------- ------------- ------------ ---------- -------------------
Cluster %Availability Requests/Sec Errors/Sec %Memory_Utilization
------- ------------- ------------ ---------- -------------------
ams-a 98.099 1012 678 91
bos-a 98.099 1111 12 91
bos-b 55.123 1513 576 22
lax-a 99.110 988 10 89
pdx-a 98.123 1121 11 90
ord-b 75.005 1301 123 100
sjc-a 99.020 1000 10 88
...(so on)...
그래서리스트 형태가 같을 수 있습니다 각 열에서 이상 값을 결정하는 가장 좋은 방법은 무엇입니까 예를 들어, 멋지게 그것을 이런 식으로 뭔가를 보이는 포맷? 아니면 외계인이 '나쁜'을 찾는 문제를 공격하는 가장 좋은 방법은 아닐까요? 위의 데이터에서 에러율이 너무 높기 때문에 bos-b와 ord-b는 물론 ams-a에 대해서도 알고 싶습니다. 그러나 다른 것들은 폐기 될 수 있습니다. 칼럼에 따라, higher는 반드시 더 나쁘지도 낮지도 않기 때문에, 나는 이것을하기위한 가장 효율적인 방법을 찾으려고 노력하고 있습니다. numpy처럼 보이는 것들이 이런 종류의 물건에 대한 언급이 많이 있지만, 그것도 (안타깝게도, 나는 통계가 아닌 sysadmin보다 ...) 어디서부터 시작해야 할지도 모르겠다.
미리 감사드립니다.
[stats.SE] (http://stats.stackexchange.com/) 사이트에서 질문하지 않는 이유는 무엇입니까? – csgillespie
@csgillespie 좋은 생각, 할 것이다! – septagram
http://stats.stackexchange.com/questions/6013/finding-outliers-in-a-data-set –