2016-07-06 3 views
0

29 가지 변수의 데이터 세트가 있습니다. 이 데이터 세트에서 특정 6 개의 변수를 사용하여 6 개의 다른 K를 클러스터로 만듭니다. R에서 클러스터를 만드는 동안 관련 변수를 지정하는 방법. 데이터를 먼저 필터링하고 해당 데이터를 사용하여 클러스터를 만들어야합니까?K에서 입력 변수를주는 방법은 클러스터링을 의미합니다. R

미리 감사드립니다.

답변

0

n 행 (샘플 수)과 29 열 (각 샘플의 변수 수)이있는 행렬이 있다고 가정합니다. 이제는 각 변수가 기능 인 "기능 선택"을 수행해야합니다. 기능 선택을 사용하면 데이터의 다양성에 기여하는 기능을 식별 할 수 있습니다. 하지만 9 가지 기능 만 필요한 이유를 알릴 수 있다면 좋을 것입니다. 궁극적 인 목적은 데이터를 클러스터링하는 경우 이 http://www.r-bloggers.com/introduction-to-feature-selection-for-bioinformaticians-using-r-correlation-matrix-filters-pca-backward-selection/

, 나는 당신이 오히려 먼저 PCA을 할 것을 제안하고 데이터의 차원을 줄이기 위해 노력할 것이라고 나중에 수행 할 수 있습니다 : 어쨌든, 기능 선택에 관한이 도움이 될 수 있습니다 클러스터링을 수행하십시오. 다시 말하면, 단지 6 개의 클러스터 만 필요한 이유를 알려 주면 좋을 것입니다.

+0

Thanks @Manish. 우리는 하나의 도구 Statistica를 사용하여 클러스터링을 수행하고 있으며 이제는 R을 사용하여 결과를 시뮬레이션하려고합니다. 이미 총 6 개의 클러스터 (이미 정의 됨)를 작성해야하며 어떤 변수가 클러스터링에 중요하다는 것도 알고 있습니다. 클러스터를 만드는 동안 변수를 선택하는 방법을 알고 싶습니다. – Mohit

+0

필자의 이해에서, 변수 선택과 클러스터링은 두 가지 독립적 인 작업입니다. 그래서, 나는 그들을 섞어서는 안된다. –

+0

좋아, Manish 감사합니다. – Mohit

0

에만 사용하려는 기능이 포함 된 하위 집합 데이터 프레임을 작성하십시오.

그런 다음 k-means를이 열에서만 실행하십시오.

인덱스를 원본 (전체) 데이터로 쉽게 다시 매핑 할 수 있습니다.

+0

감사합니다. Anony, 저도 지금하고 있습니다. 나는 그것이 올바른 접근 방법인지를 확인하기를 원했습니다. – Mohit

관련 문제