답변

0

두려운 KDDCup 1999 데이터 세트를 사용하는 경우 https://stackoverflow.com/a/22522174/1060350 - 데이터 세트는 쓸모가 없으므로 더 이상 사용하지 마십시오.

Gower의 거리과 같은 거리를 시도 할 수 있습니다. 하지만 대부분은 netflow 데이터에 사용되지 않습니다. 대신 도메인 지식을 통합해야합니다. 두 개의 netflows가 유사한 경우 일 때 질문에 답한 다음 방정식에 넣으십시오. 마술처럼 작동하는 방정식을 찾는 대신.

Gower 또는 다른 주식 거리 함수가 작동하지 않는 이유 중 하나는 네트워크 데이터의 분포가 매우 왜곡되어 있고 일반적으로 음수 값이없는 것입니다. 그것은 진정한 유클리드 공간이 아닙니다. 엔지니어링 및 과학

0

우리는 상황을 설명하고 그 차원 번호를 만들 관련 특성 규모를 사용하는 차원 숫자를 사용합니다. 예를 들어, 난류 유동을 검사하는 경우 명백하게 수많은 변수에 당황 할 수 있습니다. 그러나 난류 유동은 점성에 작용하는 운동량의 상호 작용에 의해 지배됩니다. 실제로 시스템의 몇 가지 중요한 특성 척도가 있음을 보여줄 수 있으며, 상호 작용은 비율로 표현 될 수 있습니다. 비율은 무 차원입니다 (레이놀즈 수라고 함). 큰 값은 난류를 의미하고, 낮은 값은 층류 (부드러운) 흐름을 의미합니다. 따라서이 수는 일종의 거리 함수로, 우리가 얼마나 힘이없는 부드러운 흐름에서 멀어 졌는지를 나타냅니다. 상대성 이론에서 공간과 시간의 거리는 빛의 속도를 곱한 다음 광속이 특징적인 속도이기 때문에 3 차원 공간 크기와 똑같은 길이로 처리하여 시간차를 길이로 변환하여 단일 거리로 표현할 수 있습니다 상황을위한 규모.

따라서 도메인 지식을 사용하여 마찬가지로해야합니다.

그러나 거리이 의미있는 개념인지 직접 물어보아야합니다. 거리는 비례 눈금에 대한 측정 값입니다. : 우리는 한 거리가 다른 거리의 두 배로 의미있게 말할 수 있습니다. 당신이 고려하고있는 평가 항목이 비례 척도로 측정되지 않는다면, 거리에 대해서 이야기하는 것은 난센스입니다. 귀하의 데이터에는 "TCP"와 "ICMP"가 포함되며 이는 정렬되지 않은 개별 값입니다. 거리는 단순히 데이터 세트에 대해 의미없는 개념 일 수 있습니다.