인스턴스의 수가 약 200 개이고 숫자 11 개 (약 11 개)의이 피쳐가 약 2 개 (1/0) 인 데이터 세트가 있습니다. ,혼합 (2 진 및 숫자) 벡터에 대한 유사성 점수
내가 혼합 벡터 작동 및 계정으로 기능 사이의 상관 관계를 취 좋은 유사성 점수 봤는데 오랜만이야, 상관 관계 및 서로 다른 확률 분포의입니다 수
당신을 수행 그런 유사점을 알고 있니?감사합니다, 아리안 거리 측정, Euclidean, Manhattan 등의
인스턴스의 수가 약 200 개이고 숫자 11 개 (약 11 개)의이 피쳐가 약 2 개 (1/0) 인 데이터 세트가 있습니다. ,혼합 (2 진 및 숫자) 벡터에 대한 유사성 점수
내가 혼합 벡터 작동 및 계정으로 기능 사이의 상관 관계를 취 좋은 유사성 점수 봤는데 오랜만이야, 상관 관계 및 서로 다른 확률 분포의입니다 수
당신을 수행 그런 유사점을 알고 있니?감사합니다, 아리안 거리 측정, Euclidean, Manhattan 등의
수많은 종류의 데이터 세트에 따라 정확도의 다른 수준을 제공 할 것입니다. 데이터 피팅 방법을 다루는 논문을 읽고 자신이 사용하는 휴리스틱을 확인하는 것이 가장 좋습니다. 일부 방법은 그에 따라 확장되는 균질 데이터 만 필요로한다는 것은 말할 것도 없습니다. Here은 매력을 느낄 수있는 모든 조치에 대해 이야기하는 문서입니다.
언제나 그렇듯이 테스트와 크로스 유효성 검사를 통해 피처 유형을 혼합하여 실제로 영향이 있는지 확인하십시오.
귀하의 경우, 유사 기능은 입력 데이터 패턴에 크게 의존합니다. 유사 데이터 집합 사이의 거리 공간을 유지하는 비슷하거나 다른 점들의 집합 인 의 데이터 입력 공간에 대한 거리 메트릭을 학습하면 도움이 될 수 있습니다.
Here은 멋진 설문지입니다.
실제로 다운 샘플링을 위해 클러스터를 수행하기 때문에 유사성 측정을 정의하려는 이유가 있습니다! 따라서 데이터로부터 배울 수는 없습니다. –
거리 측정법을 배우기 위해 데이터를 라벨링 할 필요는 없습니다. 매니 폴드 학습과 커널 방법 모두 이러한 방법의 예입니다. – greeness
유사성 점수와 잘 작동하고 많은 통계 패키지를 알고 계십니까? –
Matlab은 값 비싼 프로그램에 액세스 할 수있는 경우 많은 조치를 취하고 있습니다. 그렇지 않으면 나는 구글이 당신의 친구가 될 것이라고 확신합니다. – enjoylife