먼저이 질문에 대한 잘못된 Forum 일 수 있습니다. R + Bioconductor와 관련하여 매우 유익합니다. 여기에 내가 가진 무엇 :R + Bioconductor : ExpressionSet의 프로브 세트 결합
library('GEOquery')
GDS = getGEO('GDS785')
cd4T = GDS2eSet(GDS)
cd4T <- cd4T[!fData(cd4T)$symbol == "",]
이제 cd4T는 19,794 행 (probesets), 15 열 (샘플)와 큰 매트릭스를 랩하는 ExpressionSet 개체입니다. 마지막 라인은 해당 유전자 기호가없는 모든 프로브 세트를 제거합니다. 이제 문제는이 세트의 대부분의 유전자가 하나 이상의 탐침에 할당된다는 것입니다.
gene_symbols = factor(fData(cd4T)$Gene.symbol)
length(gene_symbols)-length(levels(gene_symbols))
[1] 6897
그래서 내 19794 프로브 세트 중 6897 개만 고유 프로브 세트 -> 유전자 매핑을 가지고 있습니다. 어떻게 든 각 유전자와 관련된 각 프로브 세트의 발현 수준을 결합하고 싶습니다. 각 프로브의 실제 프로브 ID는별로 신경 쓰지 않습니다. 모든 다운 스트림 분석이이 클래스와 함께 작동하도록 설계되었으므로 병합 된 정보를 포함하는 ExpressionSet으로 끝내고 싶습니다.
저는 이것을 손으로 할 수있는 코드를 작성하고 처음부터 새로운 표현식을 만들 수 있다고 생각합니다. 그러나, 나는 유전자 발현 수준을 결합하는 통계적으로 건전한 방법을 사용하여 이것이 새로운 문제가 될 수는 없으며이를 수행 할 수있는 코드가 있다고 가정하고 있습니다. 나는 또한 이것에 대한 적절한 이름을 추측하고 있지만 내 googles 사용의 많은 표시되지 않습니다. 누구든지 도와 줄 수 있습니까?
biostar.stackexchange.com을 시도해보십시오. BioInformatics 질문 전용 StackOverflow 유형 사이트입니다. –
(이것이 적절한 질문이라고 생각하기는하지만). –
cool - biostar에도 올려 놓았습니다. –