IP 주소 및 포트 번호와 같은 열이있는 네트워크 데이터에 클러스터링 (k-means)을 적용합니다. 포트 번호는 정수이지만, 예를 들어 80 번째와 81 번째 포트 간의 관계는 80 번째와 1800 번째 사이의 관계보다 더 가깝지 않습니다. 그래서 저는 그것들을 그대로 사용해서는 안된다고 생각합니다 (정수).네트워크 데이터의 클러스터링을위한 사전 처리
DictVectorizer를 사용하는 것은 65535 포트가 있기 때문에 적합하지 않습니다. 그래서 다른 접근 방식이 필요합니다. IP 주소는 포트와 동일한 문제가 있습니다.
scikit-learn (또는 k-means 포함 또는 포함하지 않음) 여부에 관계없이 문제를 해결할 수있는 방법이 있습니까?
총 데이터 포인트 수는 얼마입니까? 포트 번호는 어떻게 분배됩니까? 거의 균일하게 또는 일부 포트 | IP 번호가 자주 사용되고 다른 일부는 산발적입니까? –
특정 데이터 집합이 없습니다. 여러 데이터 세트에 적용되지만 일부 포트 번호는 예를 들어 80만큼 풍부하지만 60103은 대부분의 데이터 세트에 나타나지 않는다고 말할 수 있습니다. 그러나 나는 IP 주소에 대해서 똑같은 말을 할 수 없다. 나는 포트/ip 배포에 관한 질문을 이해할 수 없었다. – Yavuz