관심 변수가 소프트웨어 응용 프로그램 인 공동 발생 데이터의 데이터 세트를 작성하려고합니다. 각 셀에 숫자가있는 nx 행렬을 시뮬레이트하고 싶습니다. 애플리케이션 A가 애플리케이션 B와 함께 사용 된 횟수. R의 클러스터링 및 파티셔닝 알고리즘 세트를 테스트하는 데 사용할 수있는 데이터 세트를 어떻게 만들 수 있습니까? 어떤 모델을 사용할 것이며 R에 데이터를 어떻게 생성합니까?R에서 공동 발생 데이터 시뮬레이션
1
A
답변
1
n <- 10
apps <- LETTERS[1:n]
data <- matrix(0,n,n)
rownames(data) <- apps
colnames(data) <- apps
# create artificial clusters
data[1:3,1:5] <- matrix(sample(3:5,15,replace=T),3,5)
data[6:9,4:8] <- matrix(sample(1:3,20,replace=T),4,5)
# clustering
hc <- hclust(dist(data))
plot(hc)
rect.hclust(hc, k=2)
참고 :이 답변이 (가) 동시 발생 행렬이 대칭이어야 사실을 반영하기 위해 수정되었습니다. 당신이 동시 발생의 행렬이 아마 같은 무언가를 선호하는 경우
1
set.seed(42)
# software names:
software <- c("a","b","c","d")
# times each software used:
times.each.sw <- c(5,10,12,3)
# co-occurrence data.frame
swdf <- setNames(data.frame(t(combn(software,2))),c("sw1","sw2"))
swdf$freq.cooc <- apply(combn(times.each.sw,2),2,function(x) sample(1:min(x),1))
# sw1 sw2 freq.cooc
#1 a b 5
#2 a c 5
#3 a d 1
#4 b c 9
#5 b d 2
#6 c d 2
는 :
mat <- diag(times.each.sw)
dimnames(mat) <- list(software,software)
mat[lower.tri(mat)] <- swdf$freq.cooc
mat[upper.tri(mat)] <- t(mat)[upper.tri(mat)]
# a b c d
#a 5 5 5 1
#b 5 10 9 2
#c 5 9 12 2
#d 1 2 2 3
대각선은 (자체 사용 즉) 각 소프트웨어가 사용 된 횟수를 포함한다. 아래쪽/위 삼각형에는 각 조합이 사용 된 횟수가 포함되며, 자주 사용 빈도가 적은 횟수만큼 항상 같아야합니다.
+0
이것은 정확히 내가 생성하려고하는 것입니다. 감사합니다. 그러나 시뮬레이트 된 데이터를 생성하기 위해 어떤 샘플링 분포를 사용해야합니까? – amber4478
관련 문제
- 1. JAGS/r2jags에서 데이터 시뮬레이션
- 2. openMP 또는 pThread를 사용하는 FMU 공동 시뮬레이션
- 3. pandas : get_dummies가 포함 된 공동 발생 행렬
- 4. Kinect 공동 데이터 저장
- 5. 종 공동 발생 행렬 무작위 R
- 6. 공동 클러스터링을위한 데이터 세트는 무엇입니까?
- 7. 공동 데이터 흐름 차트 만들기
- 8. 공동 영상 및 데이터 표시
- 9. R에서 공간 데이터 만들기
- 10. fmuchecker가 공동 시뮬레이션 dymola fmu 파일을 시뮬레이트 할 수 없음
- 11. 스트리밍 데이터 시뮬레이션
- 12. 하위 집합 시뮬레이션 데이터
- 13. 공동
- 14. 공동 분배 R
- 15. R에서 데이터 프레임의 데이터 구조를 설명하는 방법?
- 16. R에서 Java로 데이터 구조 전송
- 17. R에서 데이터 프레임 "확장"절차?
- 18. R에서 데이터 일관성을 찾으려고 시도
- 19. R에서 데이터 프레임 부분 집합
- 20. R에서 데이터 열을 분리하는 방법
- 21. 클러스터 및 공동 발생 요인 목록의 벤 다이어그램
- 22. ddply를 사용하여 데이터 프레임에서 데이터 시뮬레이션
- 23. Xcode - applicationWillEnterForeground에서 데이터 업데이트 시뮬레이션
- 24. 공동 과학/데이터 처리 프로젝트를위한 대시 보드
- 25. SSIS 2008에서 공동 작업용 데이터 소스
- 26. 공동 데이터 세트가 BIRT의 두 테이블로 제한됩니다.
- 27. 공동 저작자를 저장할 데이터 구조는 무엇입니까?
- 28. SVG 공동 작업의 RDF 메타 데이터
- 29. 공동 작업자로 그룹 추가
- 30. 파이썬으로 시뮬레이션 및 실험 데이터 포인트 맞추기
어떤 종류의 클러스터링/파티션 알고리즘 또는 패키지를 사용할 계획입니까? 그러면 입력 데이터 형식이 결정됩니다. – thelatemail
나는 알고리즘의 조합을 사용하여 성능을 테스트했습니다. 그러나 데이터를 테스트하려면 샘플 데이터가 필요합니다. 어떻게 데이터 셋을 만들 수 있습니까? – amber4478