2014-04-15 3 views
2

데이터를 클러스터하려고합니다. 다음은 내 데이터의 예입니다.matlab를 사용하여 데이터 클러스터링

genes param1 param2 ... 
gene1 0.224 -0.113 ... 
gene2 -0.149 -0.934 ... 

저는 수천 개의 유전자와 수백 개의 매개 변수가 있습니다. 나는 유전자와 매개 변수에 의해 나의 데이터를 클러스터하고 싶었고 그것을 위해 clustergram을 사용했다. 많은 유전자가 있기 때문에 그림을 사용하여 무엇이든 이해하는 것은 매우 어렵습니다. 이제는 데이터에서 15-20 개의 가장 큰 유전자 집단에 대한 텍스트 정보를 원합니다. 나는 다른 클러스터에 속하는 15-20 개의 유전자 목록을 의미합니다. 어떻게해야합니까? Clustergram

여기에 수직 및 수평 dendrograms 있습니다 감사

이 내가 내 데이터에서이 clustergram의 예입니다. 많은 행이 있기 때문에, 세로 dendrogram (나는이 하나만 필요)에 아무것도 볼 수 없습니다. 내가 이해하는 한, 덤 드로 그램은 나의 데이터로부터 바이너리 클러스터를 생성하고, N 개의 데이터 행으로부터 N-1 개의 클러스터가있다. 바이너리 클러스터로서 다음 클러스터에 하나의 클러스터가있다. 다시 2로 등등. 예를 들어 16 개 클러스터가있는 경우와 같이 4 단계에서 어떤 클러스터에 어떤 유전자가 있는지에 대한 정보를 얻을 수 있습니까?

+0

'클러스터'라는 용어에 대해 명확히 설명해주십시오. 그'clustergram '은 무엇입니까? – Divakar

+0

유사성을 매개 변수 값으로 측정 할 때 비슷한 유전자 그룹을 의미합니다. Clustergram은 matlab에있는 도구입니다. http://www.mathworks.com/help/bioinfo/ref/clustergram.html – user2080209

+0

간단한 입출력 예제를 알려주십시오. 도움이 될 것입니다. 여전히 매우 모호합니다. – Divakar

답변

1

dendrogram과 heatmap의 흥미로운 부분을보다 명확하게 보려면 도구 모음의 확대/축소 단추를 사용하여 관심 영역을 선택하고 확대하십시오.

특정 클러스터에 어떤 유전자/변수가 있는지 알아 보려면 관심있는 클러스터를 나타내는 dendrogram 중 하나의 점을 마우스 오른쪽 버튼으로 클릭하고 Workspace로 내보내기를 선택하십시오. 다음 필드가있는 구조체가 생성됩니다.

  1. GroupNames - 행 또는 열 그룹의 이름을 포함하는 텍스트 문자열의 셀 배열입니다.
  2. RowNodeNames - 행 노드의 이름을 포함하는 텍스트 문자열의 셀 배열입니다.
  3. ColumnNodeNames - 열 노드의 이름을 포함하는 텍스트 문자열의 셀 배열입니다.
  4. ExprValues ​​- 강도 값의 M 행 N 행렬. 여기에서 M과 N은 각각 행 노드 수와 열 노드 수입니다.
관련 문제