2010-05-05 2 views
8

먼저이 질문에 대한 잘못된 Forum 일 수 있습니다. R + Bioconductor와 관련하여 매우 유익합니다. 여기에 내가 가진 무엇 :R + Bioconductor : ExpressionSet의 프로브 세트 결합

library('GEOquery') 
GDS = getGEO('GDS785') 
cd4T = GDS2eSet(GDS) 
cd4T <- cd4T[!fData(cd4T)$symbol == "",] 

이제 cd4T는 19,794 행 (probesets), 15 열 (샘플)와 큰 매트릭스를 랩하는 ExpressionSet 개체입니다. 마지막 라인은 해당 유전자 기호가없는 모든 프로브 세트를 제거합니다. 이제 문제는이 세트의 대부분의 유전자가 하나 이상의 탐침에 할당된다는 것입니다.

gene_symbols = factor(fData(cd4T)$Gene.symbol) 
length(gene_symbols)-length(levels(gene_symbols)) 
[1] 6897 

그래서 내 19794 프로브 세트 중 6897 개만 고유 프로브 세트 -> 유전자 매핑을 가지고 있습니다. 어떻게 든 각 유전자와 관련된 각 프로브 세트의 발현 수준을 결합하고 싶습니다. 각 프로브의 실제 프로브 ID는별로 신경 쓰지 않습니다. 모든 다운 스트림 분석이이 클래스와 함께 작동하도록 설계되었으므로 병합 된 정보를 포함하는 ExpressionSet으로 끝내고 싶습니다.

저는 이것을 손으로 할 수있는 코드를 작성하고 처음부터 새로운 표현식을 만들 수 있다고 생각합니다. 그러나, 나는 유전자 발현 수준을 결합하는 통계적으로 건전한 방법을 사용하여 이것이 새로운 문제가 될 수는 없으며이를 수행 할 수있는 코드가 있다고 가정하고 있습니다. 나는 또한 이것에 대한 적절한 이름을 추측하고 있지만 내 googles 사용의 많은 표시되지 않습니다. 누구든지 도와 줄 수 있습니까?

+1

biostar.stackexchange.com을 시도해보십시오. BioInformatics 질문 전용 StackOverflow 유형 사이트입니다. –

+0

(이것이 적절한 질문이라고 생각하기는하지만). –

+0

cool - biostar에도 올려 놓았습니다. –

답변

2

저는 전문가는 아니지만, 지난 몇 년 동안 보아온 사람들은 모두 자신이 좋아하는 프로브 세트 조합 방법을 가지고 있습니다. 필자가 보았던 두 가지 방법은 대규모로 가장 많이 사용되는 방법은 발현 매트릭스에서 가장 큰 차이가있는 프로브 세트 만 사용하고 다른 하나는 프로브 세트의 평균을 취하여 메타 프로브 세트를 만드는 것입니다 . 더 작은 블록의 프로브 세트의 경우, 사람들은 프로브 세트 별 플롯을보고 더 집중적 인 방법을 사용하는 것을 보아 왔습니다. 일반적으로 일어나는 일에 대한 느낌을 얻으려면 한 프로브 세트가 '좋은'것으로 밝혀집니다. 나머지는별로 좋지 않습니다.

일반화 된 코드를 보지 못했습니다. 우리 실험실에서 최근에 우리 중 일부는이 같은 일을하는 자체 기능을 가지고 있음을 깨달았습니다.

0

찾으시는 단어는 R genefilter 패키지에 'nsFilter'입니다. 이 함수는 두 가지 주요한 것을 지정합니다. entrez 유전자 ids 만 찾으면 나머지 프로브 세트는 걸러집니다. entrez id에 여러 개의 프로브 세트가 있으면 가장 큰 값이 유지되고 다른 값은 제거됩니다. 이제는 독특한 entrez 유전자 id 매핑 된 매트릭스가 있습니다. 희망이 도움이됩니다.