2015-01-27 2 views
1

시스템의 대기 시간 분포를 분석하려고합니다. 대기 시간은 다음과 같은 방식으로 수집됩니다. 최대 관찰 대기 시간 (분당)이 측정됩니다.이 대기 시간이 오늘 볼 수있는 최대 대기 시간이면이 값이 기록됩니다. 마지막 날에 나는 다음과 같은 것을 가지고있다.대기 시간 분포를 측정하는 방법

[12, 15, 19, ..., 57, 120] 

이것은 하루에 보이는 API 호출 시간이다. 이 데이터에서 유용한 측정 항목을 만들어야하지만 어떻게해야할지 모르겠다! 분명히이 데이터 세트의 평균 또는 중간 값을 계산하면 이해할 수 없습니다. 최대 대기 시간이 하루 중 첫 번째 분 동안 발생하면 실제 평균 또는 평균을 나타내지 않을 것입니다. 이는 평균 및 평균입니다. 네트워크 지연과 같은 드문 이벤트로 인해 이상 값이 될 수 있으므로 최대 값에 의존 할 수 없습니다. 이 아웃 라이어는 코드 품질을 나타내지 않으며 실제 오류를 포착하는 데 도움이되지 않습니다.

이 데이터에서 의미있는 통계를 작성하도록 도와 줄 수 있습니까?

+0

특이점을 제외한 평균을 표시하려고합니까? – shuttle87

+0

바로. 이상 치를 필요로하지만 이것은 간단합니다. – Lazin

+0

[이동 평균] (http://en.wikipedia.org/wiki/Moving_average)과 같은 소리가 필요합니다. 그러한 평균으로부터 일정한 수의 특이 치를 제외 할 수 있습니다. – shuttle87

답변

1

보고 된 시간에 대한 타임 스탬프가 있다고 가정하면 파라 메트릭 분포에 대한 우도 함수를 구성하고 최대 우도 매개 변수 추정치를 찾은 다음 적절한 분위수 (0.95, 0.99, 0.999, 무엇이든)와 보고서를 계산할 수 있습니다 그것은 일일 나쁜 - 그것 - 번호로. 나는 비 매개 변수없이 이것을 수행하는 방법을 모르기 때문에 파라 메트릭 분포라고 말합니다.

보고 된 숫자의 타임 스탬프가 주어지면 1 분에 1 분씩 대기 시간이 관찰된다고 가정하면보고 된 대기 시간 수를 보고서에서 생략 할 수 있습니다. 보고 된 숫자에서 다음 숫자로의 분 수입니다. 보고 된 각 x_i에 대해 우도 함수에 항 p (x_i | a)가 있습니다. 여기서 p는 확률 밀도이고 a는 모든 매개 변수 (하나 이상)를 나타냅니다. 보고되지 않은 각 숫자에 대해 우도 함수에 항 P (x_i | a)가 있습니다. 여기서 P는 누적 분포 함수이고 x_i는 가장 최근에보고 된 숫자입니다. 보고 된 숫자 사이의 한 갭에서보고되지 않은 숫자에 대한 모든 용어는 단일 용어 P (x_i | a)^n_i로 수집 할 수 있습니다. 여기서 n_i는 x_i가 왼쪽 끝점이고 x_ {i + 1}은 올바른 끝점입니다.

요약하면, 가능성 함수는 n이보고 된 숫자의 수이다

L(a) = product(p(x_i | a), i, 1, n) * product(P(x_i | a)^n_i, i, 1, n) 

이다. 아마 그 대수를 다루는 것이 더 편리 할 것입니다. L을 사용하는 경우 전략은 a에 대해 L을 최대화 한 다음 P * (x | a *)에 대한 분위수를 계산하고, 여기서 a *는 최대 가능 매개 변수이며, Quantile을보고합니다.

지연에 대한 적절한 배포 방법을 알 수 없습니다. 와일드 배포판부터 시작 하겠지만, 다른 사람들과 시도해야 할 수도 있습니다.

여기에는 모든 종류의 가정되지 않은 가정이 있습니다. 관심이 있으면 세부 사항을 채울 수 있습니다.

1

여기서는 다른 방법인데, 이는 논리적이지 않습니다. x_i와 x_ {i + 1} 사이에 경험적 누적 분포 함수를 바인딩 할 수 있습니다. (1) x_i보다 작거나 같은 값의 분수로 아래로 한정됩니다. (2) 확실히 x_i보다 큰 값의 분수로 위에 묶여있다.

이러한 경계는 매우 느슨합니다. 경험적 c. 는 분계선에 대해 매우 넓은 범위로 이어질 것입니다 - 이것은 "이상치"를 구성하는 것에 대한 경계가 비교적 넓은 범위 내에서만 알려질 것임을 의미합니다. c.d.f를 가정하는 것과 같이 가정을 간소화 할 수 있습니다. 점 값을 얻기 위해 x_i와 x_ {i + 1} 사이에 조각 별 선형입니다.

(1)은 x_ {i + 1}이 관찰되기 전에 관찰 된 전체 값 (보고되고 생략 된 값)을 하루 종일 값의 총 수로 나눈 것입니다. (2)는 단지 1 마이너스 (x_i 이후에보고 된 값의 수 (우리가 확실히 x_i보다 큰 유일한 값이므로 하루 종일 총 값으로 나눈 값)입니다.

EDIT : corrected (2).

관련 문제