2012-11-09 2 views
2

인스턴스의 수가 약 200 개이고 숫자 11 개 (약 11 개)의이 피쳐가 약 2 개 (1/0) 인 데이터 세트가 있습니다. ,혼합 (2 진 및 숫자) 벡터에 대한 유사성 점수

내가 혼합 벡터 작동 및 계정으로 기능 사이의 상관 관계를 취 좋은 유사성 점수 봤는데 오랜만이야, 상관 관계 및 서로 다른 확률 분포의입니다 수

당신을 수행 그런 유사점을 알고 있니?

감사합니다, 아리안 거리 측정, Euclidean, Manhattan 등의

답변

2

수많은 종류의 데이터 세트에 따라 정확도의 다른 수준을 제공 할 것입니다. 데이터 피팅 방법을 다루는 논문을 읽고 자신이 사용하는 휴리스틱을 확인하는 것이 가장 좋습니다. 일부 방법은 그에 따라 확장되는 균질 데이터 만 필요로한다는 것은 말할 것도 없습니다. Here은 매력을 느낄 수있는 모든 조치에 대해 이야기하는 문서입니다.

언제나 그렇듯이 테스트와 크로스 유효성 검사를 통해 피처 유형을 혼합하여 실제로 영향이 있는지 확인하십시오.

+0

유사성 점수와 잘 작동하고 많은 통계 패키지를 알고 계십니까? –

+0

Matlab은 값 비싼 프로그램에 액세스 할 수있는 경우 많은 조치를 취하고 있습니다. 그렇지 않으면 나는 구글이 당신의 친구가 될 것이라고 확신합니다. – enjoylife

3

귀하의 경우, 유사 기능은 입력 데이터 패턴에 크게 의존합니다. 유사 데이터 집합 사이의 거리 공간을 유지하는 비슷하거나 다른 점들의 집합 인 의 데이터 입력 공간에 대한 거리 메트릭을 학습하면 도움이 될 수 있습니다.

Here은 멋진 설문지입니다.

+0

실제로 다운 샘플링을 위해 클러스터를 수행하기 때문에 유사성 측정을 정의하려는 이유가 있습니다! 따라서 데이터로부터 배울 수는 없습니다. –

+1

거리 측정법을 배우기 위해 데이터를 라벨링 할 필요는 없습니다. 매니 폴드 학습과 커널 방법 모두 이러한 방법의 예입니다. – greeness