요약

2011-10-19 3 views
3

나는 임 작업하는 대형 데이터 프레임의 데이터 마이닝에 관한 또 다른 질문이, 처음 몇 줄은 다음과 같습니다요약

내가 함께 일하게 될 것입니다 전체에서
 Assay Genotype Sample Result 
1  001  G   1   0 
2  001  A   2   1 
3  001  G   3   0 
4  001  NA  4   NA 
5  002  T   1   0 
6  002  G   2   1 
7  002  T   3   0 
8  002  T   4   0 
9  003  NA  1   NA 
10 003  G   2   1 
11 003  G   3   1 
12 003  T   4   0 

2000 샘플 및 각 샘플에 대한 168 Assays.

이 ID는 얼마나 많은 '샘플'에 각각 '결과'가 있는지를 알려주는 요약 테이블을 생성하려고합니다. '결과'1, 0 또는 NA에는 3 가지 옵션 만 있습니다. 제가 위에서 언급 한 바와 같이이 168 개 가지 분석 실험 그리고 그들은 단순히 숫자 일련의 표시가없는, 그래서

Assay 1 0 NA 
001  1 2 1 
002  1 3 0 
003  2 1 1 

:이처럼 보이는 데이터 프레임 (위의 데이터를 사용)를 가지고 결과를 싶습니다 분석 데이터 ID는 원본 데이터 프레임에서 추출해야합니다. 이상적인 세계에서 각 결과 옆에 나열된 표본의 백분율을 숫자 옆에 표시하려고합니다 (또는 다른 표에서).

답변

2

@ MYaseen208하지만 추가 NA 열처럼

table(df$Assay, df$Result,useNA="ifany") 
+0

이 가까이 있지만 나에게 1과 0이 아닌 숫자의 개수를 알 수 NA의 –

+0

@SamGlobus : 업데이트 된 답변보기. – MYaseen208

+0

빠른 업데이트 (+1). 어쨌든, 헤더를 유지하는 것이 더 우아하다고 생각할 때 나는 나의 비슷한 대답을 지우지 않을 것이다. :) – daroczig

3

을 시도해보십시오

> table(df[, c('Assay', 'Result')], useNA='ifany') 
    Result 
Assay 0 1 <NA> 
    1 2 1 1 
    2 3 1 0 
    3 0 0 1 

참조 : ?table