2012-12-18 3 views
3

나는이 이상한 고차원 클러스터링 문제에 빠졌습니다. 그것을 설명하는 비유가 있습니다.관측치 집합에서 고차원 클러스터링

2^10 명이 숲에 들어서고 몇 마리의 새들이 그곳에 살고 있는지 알고 싶습니다.

이 새들은 말하자면 128 차원에서 서로 다르며 모든 차원은 바이너리입니다. 즉, 새가 큰 부리 나 작은 부리를 가지고 있거나 파란색 날개가 있거나없는 경우입니다 (각 조류 종은 128 비트로 나타낼 수 있음)

내 문제는 사람들이 우리는 단지 8 개의 새들을 보았고, 3 마리는 푸른 부리가 있었고 (5 마리는 없었습니다), 4 마리는 푸른 날개가 있었으며 (4 마리는 없었습니다), 1 마리는 푸른 날개를 가지고있었습니다. 큰 부리 (7은하지 않았다) 등 ". 그들 그들의 관측의 개별 특성에 대한보고는 아니지만 그들의 관측 집합체에 대해서만보고하십시오.

두 개의 추가 제약이 있습니다

I)의 모든 종은 적어도 한 번 관찰이; ii) 종의 수는 작습니다 (~ 2^5).

물론 3000 개의 관측치, 357 개의 새가 큰 부리가있는 등의 집합체를 집계 할 수 있습니다. 그러나 클러스터는 어떻습니까?

그래서 질문은 다음과 같습니다

  1. 우리는 어떻게 종족이 살고 얼마나 많은 찾을 수 있습니까?

  2. 각 종의 특성을 어떻게 알 수 있습니까?

답변

2

2^128 = 340282366920938463463374607431768211456 이후 유효한 결론을 도출하려면 꽤 높은 표본 크기가 필요합니다. 관찰 된 모든 새들은 쉽게 독특 할 수 있습니다.

+0

그래, 나는 두 가지 제약 조건을 추가하는 것을 잊었다 : 여기

는 모두 스파 스 사전 학습 (및 관련 문제를) 설명하는 링크의 부부와 소프트웨어를 해결하기 위해 제공 적어도 한 번 관찰되었다. ii) 종의 수는 작습니다 (~ 2^5). 감사합니다. 나는 그 질문을 갱신하고있다. – linhares

2
사람에 의해 조류의 세트의 총 관찰, 당신은 D이 열 개인 새의 특성을 나타내는 행렬은 행렬 제품 Dz하여 대략 수 x 경우

z는의 계수의 벡터이다 각 새.

작은 수의 새만 관찰된다고 가정하면이 값은 z 크기의 제약 조건으로 작용합니다.

이 문제는 스파 스 사전 학습 문제와 매우 유사합니다. 모든 종은) 나 나 : http://spams-devel.gforge.inria.fr/http://www.ux.uis.no/~karlsk/dle/index.html