파이썬의 문자열에서 특정 값을 추출하고 싶습니다.문자열에서 값을 추출하십시오.
snp_1_881627 AA=G;ALLELE=A;DAF_GLOBAL=0.473901;GENE_TRCOUNT_AFFECTED=1;GENE_TRCOUNT_TOTAL=1;SEVERE_GENE=ENSG00000188976;SEVERE_IMPACT=SYNONYMOUS_CODON;TR_AFFECTED=FULL;ANNOTATION_CLASS=REG_FEATURE,SYNONYMOUS_CODON,ACTIVE_CHROM,NC_TRANSCRIPT_VARIANT,NC_TRANSCRIPT_VARIANT;A_A_CHANGE=.,L,.,.,.;A_A_LENGTH=.,750,.,.,.;A_A_POS=.,615,.,.,.;CELL=GM12878,.,GM12878,.,.;CHROM_STATE=.,.,11,.,.;EXON_NUMBER=.,16/19,.,.,.;GENE_ID=.,ENSG00000188976,.,ENSG00000188976,ENSG00000188976;GENE_NAME=.,NOC2L,.,NOC2L,NOC2L;HGVS=.,c.1843N>T,.,n.3290N>T,n.699N>T;REG_ANNOTATION=H3K36me3,.,.,.,.;TR_BIOTYPE=.,PROTEIN_CODING,.,PROCESSED_TRANSCRIPT,PROCESSED_TRANSCRIPT;TR_ID=.,ENST00000327044,.,ENST00000477976,ENST00000483767;TR_LENGTH=.,2790,.,4201,1611;TR_POS=.,1893,.,3290,699;TR_STRAND=.,-1,.,-1,-1
출력 :
문자열 다음 출력을 기존 해당 변수 (GENE_ID, GENE_NAME, EXON_NUMBER)의 각각의 값을 갖는 경우 GENE_ID GENE_NAME EXON_NUMBER SEVERE_IMPACT
snp_1_881627 ENSG00000188976 NOC2L 16/19 SYNONYMOUS_CODON
, 다른 "NA"는 (변수가 존재하지 않거나 그 값 존재하지 않습니다.) 경우에 따라 이러한 변수는 문자열에 존재하지 않습니다. 내가 어떤 값을 추출하기 전에 내 문자열을 분리 해야하는 나는 이러한 목표를 달성하는 데 사용해야하는 문자열 방법
? 나는 각 snp_ *
string=string.split(';')
P.S.에 대한 값을 추출하는 10,000 행이 나는 파이썬으로 초보자이다
실제로 '분할'을 사용하려고 했습니까? 코드는 어디에 있고 그 결과는 무엇입니까? – jonrsharpe
일단 분할하면 추출 할 값이 일치하지 않아 인덱스를 통해 값을 사용할 수 없습니다. 전체 문자열에서 패턴 (예 : GENE_ID)을 찾으려고했습니다. – Rgeek
인덱스를 사용하지 말고 실제로 'startswith'를 사용하여 목록에서 원하는 용어를 검색하십시오. 예를 들어 사전을 만드는 것이 좋습니다. '{ 'ID': 'snp_1_881627', 'SEVERE_IMPACT': 'SYNONYMOUS_CODON', ...}' – jonrsharpe