나는 범주 적 (명목상과 서수) 및 숫자 속성을 모두 포함하는 데이터 집합이 있습니다. 나는 이러한 혼합 된 속성을 사용하여 내 관측을 가로 지르는 (dis) 유사성 행렬을 계산하려고합니다. 다음과 같이 R의 클러스터 패키지의 daisy() 기능을 사용하여, 나는 쉽게 유사성 행렬을 얻을 수 있습니다 :파이썬에서 daisy()와 같은 클러스터 패키지 R
if(!require("cluster")) { install.packages("cluster"); require("cluster") }
data(flower)
as.matrix(daisy(flower, metric = "gower"))
이는 명목 변수를 다루는 메트릭 GOWER을 사용합니다. R에 daisy()
함수와 동일한 파이썬이 있습니까?
또는 Gower 메트릭이나 유사한 것을 사용하여 다른 특성이 혼합 된 (공칭, 숫자) 속성이있는 데이터 집합의 (dis) 유사도 행렬을 계산할 수있게 할 수 있습니까?
감사합니다 :
소스 코드는이 jupyter 노트북에서 기한입니까? – Rhubarb
나는 그렇지 않습니다. 그들의 문서화가 훌륭하기 때문에 검색을 통해 결과가 빨리 나타나야합니다. 그러나, 내 접근 방식은 내가 원했던 방식으로 이것을 처리 한 저 자신의 소소한 거리 함수를 정의하고 그것을 'pdist'에 전달하는 것입니다. 그렇게하면 계산의 다른 측면의 상대적인 중요성을 제어 할 수 있습니다.이 속도가 느린 경우 numba 또는 Cython을 사용하여 속도를 올리기 위해 낮은 수준에서 그 기능을 구현하는 것을 목표로 삼을 것입니다. – ely