나는이 이상한 고차원 클러스터링 문제에 빠졌습니다. 그것을 설명하는 비유가 있습니다.관측치 집합에서 고차원 클러스터링
2^10 명이 숲에 들어서고 몇 마리의 새들이 그곳에 살고 있는지 알고 싶습니다.
이 새들은 말하자면 128 차원에서 서로 다르며 모든 차원은 바이너리입니다. 즉, 새가 큰 부리 나 작은 부리를 가지고 있거나 파란색 날개가 있거나없는 경우입니다 (각 조류 종은 128 비트로 나타낼 수 있음)
내 문제는 사람들이 우리는 단지 8 개의 새들을 보았고, 3 마리는 푸른 부리가 있었고 (5 마리는 없었습니다), 4 마리는 푸른 날개가 있었으며 (4 마리는 없었습니다), 1 마리는 푸른 날개를 가지고있었습니다. 큰 부리 (7은하지 않았다) 등 ". 그들 그들의 관측의 개별 특성에 대한보고는 아니지만 그들의 관측 집합체에 대해서만보고하십시오.
두 개의 추가 제약이 있습니다
I)의 모든 종은 적어도 한 번 관찰이; ii) 종의 수는 작습니다 (~ 2^5).
물론 3000 개의 관측치, 357 개의 새가 큰 부리가있는 등의 집합체를 집계 할 수 있습니다. 그러나 클러스터는 어떻습니까?
그래서 질문은 다음과 같습니다우리는 어떻게 종족이 살고 얼마나 많은 찾을 수 있습니까?
각 종의 특성을 어떻게 알 수 있습니까?
그래, 나는 두 가지 제약 조건을 추가하는 것을 잊었다 : 여기
는 모두 스파 스 사전 학습 (및 관련 문제를) 설명하는 링크의 부부와 소프트웨어를 해결하기 위해 제공 적어도 한 번 관찰되었다. ii) 종의 수는 작습니다 (~ 2^5). 감사합니다. 나는 그 질문을 갱신하고있다. – linhares