행 100 개와 10 개를 포함하는 행렬을 가지고 있습니다. 여기서는 행 사이의 다양성을 비교하고 정렬하려고합니다. 그리고 나서, 나는 그것으로부터 최대 비 유사 행을 10 개 선택하고 싶습니다. 어떤 방법을 사용할 수 있습니까? 유사하고 dissimilarty 값과 비교 - 두 개의 행과 dissimilairty = 1 내지 :In R : 행렬의 행간 최대 비 정렬 정렬
set.seed(123)
mat <- matrix(runif(100 * 10), nrow = 100, ncol = 10)
내 초기 방법 (예컨대 http://en.wikipedia.org/wiki/Jaccard_index 타니 모토 계수 또는 다른 말)의 유사도를 계산하는 것이다. 마침내 모든 비평가 값을 정렬하고 10 개의 최대 비평가 값을 선택합니다. 하지만 결과가 100 * 100 행렬 인 것 같습니다. 많은 수의 행이있는 경우 이러한 계산에 효율적인 방법이 필요할 수 있습니다. 그러나 이것은 단지 제 생각이었고 어쩌면 옳지 않았을 수 있습니다. 그래서 도움이 필요합니다.
[업데이트] 일부 자료를 찾은 후. 최대 불일치 방법에 대한 하나의 정의를 찾았습니다.
최대 비 차이 성 방법 : 데이터 레코드를 첫 번째 클러스터 중심으로 무작위로 선택하는 것으로 시작합니다. 첫 번째 점으로부터 최대한 멀리 떨어진 기록은 다음 클러스터 중심으로 선택됩니다. 그 후 현재 지점과 최대 거리만큼 떨어진 기록이 선택됩니다. 이 과정은 충분한 수의 클러스터 센터가있을 때까지 반복됩니다.
내 질문에 여기, 충분한 수는 10
감사해야합니다.
그리고 지금까지 어떤 시도를 했습니까? 그래서. 사이트는 보통 당신이 한 일과 질문을하기 전에 벽을 치는 곳을 보여줄 것으로 기대합니다. – thelatemail
@thelatemail, 감사합니다.내 질문을 편집했지만 어쩌면 내 질문을 묘사하기에 아직 모호합니다. 사람들에게 도움이 필요합니다. – BioChemoinformatics
3 행으로 간단한 예를 들자면 각 조합에 대한 유사성 측정 값을 얻을 수 있습니다. 'r1/r2'' r1/r3''r2/r3'이므로 10 행이 아닌 10 개의 서로 다른 행 쌍만 얻을 수 있습니다. – thelatemail