파이썬으로 DNA/단백질 서열 데이터를 분석 중이며 문제가 있습니다. 다음은 DNA 서열 표입니다.파이썬과 중복을 요약하십시오.
나는 그룹 1과 그룹 2는 쌍이기 때문에이를 분석 할. 예를 들어, AAATTT_TTTCCC 또는 GGGCCC_GGAAA는 쌍입니다.
이 시퀀스 데이터는 때때로 동일한 순서를 나타냅니다. 예를 들어 AAATTT는 세 번 나타나고 AGTC는 두 번 나타납니다. 이 중복 시퀀스를 계산하고 아래와 같이 요약하려고합니다. 팬더를 사용해야 할 것이지만 어떻게해야할지 모르겠다. 누구든지이 일을 도울 수 있다면, 나는 그와 함께 매우 감사 할 것입니다.
그래서 당신은 단지 각각의 고유 한 그룹 1의 값이 나타나는 횟수를 계산하려면? Group2가 요약 테이블의 컬럼 인 이유는 무엇입니까? – sundance
아, 그룹 1 시퀀스가 동일하면 그룹 2 시퀀스도 원합니다! –