2012-10-23 1 views
1

R/BioC를 처음 사용했습니다. 나는 유전자의 GO 기반 클러스터링을 시도하고있다. 입력은 유전자 명과 각 행의 용어로 이루어져야합니다. 예 :프로브 별 Gene ontology (GO) 용어를 얻는 방법

AP4B1 GO:0005215 GO:0005488 GO:0005515 GO:0005625 GO:0005802 GO:0005905 
BCAS2 GO:0005515 GO:0005634 GO:0005681 GO:0008380 GO:0031202 

나는 bioconductor에 주석을 사용하여 시도 :

library("rat2302.db") 
library(annotate) 
testid<-c("1367462_at","1380262_at", "1392516_a_at", "1396521_at") 
goid1 <- rat2302GO[testid] 

하지만 별도의 행에 각 GO 용어 얻을 :

toTable(goid1) 

probe_id  go_id Evidence Ontology 
1 1367462_at GO:0008152  IEA  BP 
2 1367462_at GO:0008152  ISO  BP 
3 1367462_at GO:0006508  IMP  BP 
4 1367462_at GO:0005886  IEA  CC 
5 1367462_at GO:0005737  IEA  CC 
6 1380262_at GO:0005575  ND  CC 
7 1380262_at GO:0005634  IEA  CC 
8 1380262_at GO:0005737  IEA  CC 
9 1367462_at GO:0005509  IEA  MF 
10 1367462_at GO:0005509  TAS  MF 
11 1367462_at GO:0004198  IDA  MF 
12 1367462_at GO:0004198  IEA  MF 
13 1367462_at GO:0004198  ISO  MF 
14 1367462_at GO:0046982  IPI  MF 
15 1380262_at GO:0000166  IEA  MF 

어쩌면 얻을 수있는 쉬운 방법이를 모두 유전자 당 GO 용어. 불행히도, 나는 그것을 발견 할 수 없었다.

도움을 주시면 대단히 감사하겠습니다. 당신이 당신의 입력을 포맷하는 방법을 정확히

덕분에 입력하여 예로부터

+1

를 원하는 것을 할 수있다 gene2go라는 이름의 파일을 제공합니다. –

+0

또는 http://biostars.org/ –

답변

0

확인 R은, 그것은 명확하지 않다. 당신이 제시 한 것이 data.frame입니까? 또는 첫 번째 요소가 유전자 이름 인 두 문자 벡터입니까? 또는 .txt 파일을 예제로 지정 하시겠습니까? 어떤 경우 출력

$`1367462_at` 
[1] "GO:0006508" "GO:0005886" "GO:0005737" "GO:0070062" "GO:0005509" "GO:0004198" "GO:0046982" 
[8] "GO:0005509" "GO:0004198" 

$`1380262_at` 
[1] "GO:0005575" "GO:0005634" "GO:0005737" "GO:0015459" "GO:0004674" "GO:0005524" "GO:0015459" 
[8] "GO:0015459" 

$`1396521_at` 
[1] "GO:0008289" 

을 제공

tab <- toTable(goid1) 
split(tab$go_id, tab$probe_id) 

을 다음과 같이

은 내가 할 수있는 가장 쉬운 방법은 단순히 splitprobe_id에 의한 것으로 생각한다. 이것은 원하는대로 각 유전자/프로브 셋에 대한 GO 용어의 벡터 목록입니다. 이것을 원하는대로 조작 할 수 있어야합니다.

0

NCBI는 내가 대신 [Bioconductor]에 (http://bioconductor.org/help/mailing-list/) 메일 링리스트를 요청하는 제안

관련 문제