~ 50000 개의 클러스터 목록과 각 요소에 여러 가지 요소가있는 입력 파일이 있습니다 (총 1,000 만 개 항목). 작은 예를 아래에 : 또 다른 질문에서 약간의 도움으로클러스터 및 공동 발생 요인 목록의 벤 다이어그램
set.seed(1)
x = paste("cluster-",sample(c(1:100),500,replace=TRUE),sep="")
y = c(
paste("factor-",sample(c(letters[1:3]),300, replace=TRUE),sep=""),
paste("factor-",sample(c(letters[1]),100, replace=TRUE),sep=""),
paste("factor-",sample(c(letters[2]),50, replace=TRUE),sep=""),
paste("factor-",sample(c(letters[3]),50, replace=TRUE),sep="")
)
data = data.frame(cluster=x,factor=y)
,이 같은 요인의 동시 발생에 대한 pieChart를 생산하기 위해 그것을 가지고 :
counts = with(data, table(tapply(factor, cluster, function(x) paste(as.character(sort(unique(x))), collapse='+'))))
pie(counts[counts>1])
을하지만 지금은하고 싶은 요인의 동시 발생에 대한 도표. 이상적으로는 각 요인에 대한 최소 카운트에 대한 임계 값을 취할 수있는 방법으로도 가능합니다. 예를 들어, 각 요소가 고려 될 각 클러스터에 n> 10이 있어야하기 때문에 여러 요인에 대한 다이어그램.
집계를 사용하여 테이블 수를 산출하는 방법을 찾으려고했지만 작동하지 못했습니다.
당신이 벤 다이어그램을위한 R 패키지의 봤어? G. Jay Kerns의 [venneuler' 라이브러리를 사용한 [최근 예제] (http://stats.stackexchange.com/questions/16802/derive-pc-ab-from-coxs-two-rules/18209#18209)를 참조하십시오. , 또는 venn' 라이브러리를 사용하는 Stat 소프트웨어 저널 (Murdoch, 2004) (http://www.jstatsoft.org/v11/c01)의이 간략한 기사를 참고하십시오. 이것이 순수하게 R 프로그래밍에 관한 것이라면 SO로 마이그레이션해야합니다. –
Avilella,이 질문은 주제와 조금 떨어져 있기 때문에 답변을 얻지 못할 수도 있습니다. 활성 R 사용자 커뮤니티가있는 SO를 더 잘 수행 할 수 있습니다. 그러나 교차 게시하지 마십시오. 이동하려는 경우 운영자의주의를 위해 플래그를 지정하십시오. – whuber
깃발을 꽂았으나 아직 움직이지 않은 것을 볼 수는 없습니다 ... – 719016