2010-06-10 5 views
4

희귀 한 이벤트 감지에 사람들이 사용하는 알고리즘에 대한 좋은 언급이 있습니까? 또한 시간 계수는 어떻게 고려됩니까? 연속적인 데이터 포인트가 무언가를 말해주는 경우 (t_1에서 t_n까지), 이것을 일반적인 기계 학습 시나리오에 어떻게 반영 할 수 있습니까?희귀 한 이벤트 감지

모든 포인터는 높이 평가됩니다.

+1

"희귀 한 이벤트"라고 할 때의 의미에 따라 ... 문제 영역에서 희귀 성을 어떻게 계량합니까? – Kiril

+0

유익한 증분이 처리되는 방법에 대해 표시된 프로세스를 살펴보십시오. – Tristan

+0

며칠에 한 번,하지만 데이터는 분 데이터입니다. 그래서 그것의 거의 120 분 (2-10) * 1440 분 – AlgoMan

답변

5

시나리오를 더 자세히 설명하는 데 도움이 될 수 있습니다. 희귀 한 이벤트를 찾으려고 노력하기 때문에 희귀하지 않은 작업 정의가 있다고 가정합니다 (일부 문제 공간의 경우 이는 매우 어렵습니다).

예를 들어 일부 서비스의 경우 CPU 사용률과 같은 임의의 보행 프로세스가 아닌 프로세스가 있다고 가정합니다. 희소 한 사건을 탐지하고 싶다면 평균 활용도를 취한 다음 여러 표준 편차를 살펴볼 수 있습니다. 기술은 Statistical Process Control에서 유용합니다.

주식 가격과 같은 임의의 보행 과정이있는 경우 (간단히하기 위해 웜을 열 수 있습니다 ...). t에서 t + 1 방향 이동은 무작위입니다. 임의의 이벤트는 단일 시간 단계에서 특정 방향으로 연속 이동하거나 단일 방향으로 큰 이동 일 수 있습니다. 기본 개념은 Stochastic Calculus을 참조하십시오.

t 단계의 프로세스가 t-1 단계에만 종속되면 Markov Chains을 사용하여 프로세스를 모델링 할 수 있습니다.

다음은 사용할 수있는 수학적 기술의 간단한 목록입니다. 이제 기계 학습에 대해 알아보십시오. 왜 기계 학습을 사용하고 싶습니까? (항상 문제를 복잡하게 생각하지 않으려 고 항상 생각하는 것이 좋습니다.) 당신이하고 있다고 가정하고 올바른 해결책입니다. 실제 알고리즘은이 단계에서 그리 중요하지 않습니다. 드문 사건이 무엇인지 정의해야합니다. 반대로 정상적인 이벤트가 무엇인지 정의하고 정상적이지 않은 이벤트를 찾을 수 있습니다. 이것들은 같은 것이 아니라는 점에 유의하십시오. 드문 사건 r1 ... rn을 생성한다고 가정 해보십시오. 각각의 희귀 한 이벤트에는 이와 관련된 몇 가지 기능이 있습니다. 예를 들어 컴퓨터가 고장난 경우 네트워크에서 마지막으로 본 것과 같은 기능, 스위치 포트 상태 등이있을 수 있습니다. 이것은 실제로 기계 학습, 교육 세트 구성의 가장 중요한 부분입니다. 일반적으로 모델을 훈련시키기 위해 일련의 예제를 라벨링하는 손으로 구성됩니다. 기능 공간을 더 잘 이해하면 다른 모델에 대한 레이블을 지정하여 교육시킬 수 있습니다. 만족할 때까지이 과정을 반복하십시오.

희귀 한 이벤트 세트를 정의 할 수 있다면 간단히 추론을 생성하는 것이 더 저렴할 수 있습니다. 희소 한 사건을 검출하기 위하여 나는 항상 이것을 잘 작동하는 찾아 냈다.

+0

동의 :). 내가 알아 내려고 애쓰는 문제는이 이벤트가 발생하기 전에 잡을 수있는 신호가 있는지입니다. 그래서 시간 요소가 여기에서 중요한 역할을합니다. 이전에 정의 된 규칙 기반 접근 방식이 있으므로. 그러나 조사중인 소프트웨어/하드웨어의 변경이있을 때는이를 배우지 못합니다. – AlgoMan

+0

해야 할 일은 지속적으로 모델을 재교육하는 것입니다. 기계 학습은 과거를보고 작동하므로 미래는 과거와 닮았다고 가정합니다. 따라서 프로세스가 정상적이지 않은지를 결정하기 위해 무언가를 할 수 있습니다. 그러나 전에 보지 못했기 때문에 아마도 특정 카테고리로 분류 할 수 없을 것입니다. 고주파 거래를 고려하십시오. 그들은 대부분의 시장 상황에서 작동하도록 만들어진 모델을 가지고 있습니다.시장 상황이 정상이 아닌 경우 모델이 작동하는지 확실하지 않으므로 가동이 중단됩니다. –

관련 문제