통계

2014-09-14 3 views
2

나는 죄송합니다. 그것들은 게놈의 특정 위치와 2 개의 다른 환경에서 그 위치에서 각 DNA 염기가 관찰되는 횟수를 나타냅니다. 예시 비상 표 데이터는 양의 정수가 될 수통계

  A  C  G  T 
condition1 0  2  20  70000 
condition2 3  15  0  95000 

or 
      A  C  G  T 
condition1 80146 0  5  0 
condition2 26821 2  4  0 

것이다. 최소 카운트는 0이고 최대 값은 ~ 800,000까지 올라갈 수 있습니다. 하나의 카운트는 일반적으로 거의 모든 행과 열의 총 카운트입니다 (예 : 위의 첫 번째 사례의 셀 T와 두 번째 사례의 셀 A와 같은 두 조건 모두에서 동일 함). 그런 다음 1 또는 2 개의 다른 셀은 낮은 값을 갖습니다 셀 수는 ... 차이가있는 경우 다른 셀에서 관찰되어야합니다.

목표는 추가 분석을 위해이 두 가지 환경 조건간에 크게 다른 위치를 식별하는 것입니다. 우리의 측정 방법은 10^-6의 오차율로 추정됩니다.

이 데이터를 분석하려면 R을 사용하고 있습니다. 작은 또는 0 카운트의 셀을 가지고 있기 때문에 이것에 대한 카이 제곱 테스트를 실행할 수 있는지 확신 할 수 없습니다.

with a workspace of 1E5 
FEXACT error 40. 
Out of workspace. 

with a workspace of >3E5 
FEXACT error 501. 
The hash table key cannot be computed because the largest key 
is larger than the largest representable int. 
The algorithm cannot proceed. 
Reduce the workspace size or use another algorithm. 

사람이 적절한 시험을 제안하거나, 어부 또는 카이 제곱 설정을 할 수 : 피셔의 테스트와 나는이 오류를 얻을? 사전에

많은 감사,

+0

질문을 명확하게하려면 열에 이름을 부여하고 각 열에 어떤 값이 올 수 있는지 알려주고 2 개의 예제 표를 제공하십시오. 이렇게하면 포럼 회원들이 귀하를 도울 수 있습니다. – rnso

+0

그냥 했어요. 희망이 지금 더 의미가 있습니다. – Ron

+0

"1 또는 2 개의 다른 셀은 낮은 카운트를 가질 것입니다. 차이가 있다면 관찰해야하는 다른 셀에 있습니다.": 낮은 것을 의미하는 것 : 100을 컷오프로 사용합니까? – rnso

답변

0

카이 제곱 테스트 작동 :

df1 = structure(list(A = c(0L, 3L), C = c(2L, 15L), G = c(20L, 0L), 
    T = c(70000L, 95000L)), .Names = c("A", "C", "G", "T"), class = "data.frame", row.names = 1:2) 

df1 
    A C G  T 
1 0 2 20 70000 
2 3 15 0 95000 

chisq.test(df1) 

     Pearson's Chi-squared test 

data: df1 
X-squared = 35.8943, df = 3, p-value = 7.884e-08 

Warning message: 
In chisq.test(df1) : Chi-squared approximation may be incorrect 

나는이 충분한 지 확실하지 않다.

+0

일부 셀의 값이 0 이하인 경우 chi.square를 수행하는 것이 좋습니까? 경고가 어디에서 왔습니까? – Ron

+0

나는 KaiSun에 동의하고이 경고를 무시합니다. fisher.test는 오류를 발생 시키므로 카이 제곱 검사를 사용해야합니다. 통계적 조언을 위해서는 http://stats.stackexchange.com/ (CrossValidated)에 게시해야합니다. – rnso

+0

감사합니다. 나는 그것의 적당한 시험 및 경고를 무시하기 위하여 그것의 ok를 지키기 위하여 stats 교환에 배치했다. – Ron

0

R 피셔의 정확한 테스트는 작은 데이터에 작동합니다. T의 열에있는 데이터를 70000에서 95000으로, 700에서 950으로 줄이면 피셔 테스트가 작동합니다.

한편, 나는 데이터에 chisq.test을 시도했지만 효과가있었습니다. 더 큰 데이터의 경우 카이 제곱 검정이 피셔의 정확한 검정보다 선호됩니다.

+0

안녕하세요, 나는 10 값으로 스케일링 할 수 없기 때문에 문제가 발생하는지 확실하지 않습니다. 0 값을 스케일 할 수없고 n이 100000 일 때 0을 얻는 것이 가능하지 않기 때문에 10,000을 의미하는 것이 아닙니다. Chisq.test까지는 아래에 나와있는 것처럼 5보다 작은 셀을 사용하는 것이 좋은지, 그리고 근사값이 올바르지 않을 것이라는 경고 메시지가 표시되는지 확실하지 않습니다. – Ron

+0

안녕하세요, 론, 저는 통계 전문가가 아닙니다. 이 페이지는 http://www.langsrud.com/fisher.htm에서 확인할 수 있습니다. chisq.test가 데이터에서 작동하는 한 걱정하지 않아도됩니다. –