2017-01-27 1 views
2

파이썬으로 DNA/단백질 서열 데이터를 분석 중이며 문제가 있습니다. 다음은 DNA 서열 표입니다.파이썬과 중복을 요약하십시오.

enter image description here

나는 그룹 1과 그룹 2는 쌍이기 때문에이를 분석 할. 예를 들어, AAATTT_TTTCCC 또는 GGGCCC_GGAAA는 쌍입니다.

이 시퀀스 데이터는 때때로 동일한 순서를 나타냅니다. 예를 들어 AAATTT는 세 번 나타나고 AGTC는 두 번 나타납니다. 이 중복 시퀀스를 계산하고 아래와 같이 요약하려고합니다. 팬더를 사용해야 할 것이지만 어떻게해야할지 모르겠다. 누구든지이 일을 도울 수 있다면, 나는 그와 함께 매우 감사 할 것입니다.

enter image description here

+1

그래서 당신은 단지 각각의 고유 한 그룹 1의 값이 나타나는 횟수를 계산하려면? Group2가 요약 테이블의 컬럼 인 이유는 무엇입니까? – sundance

+0

아, 그룹 1 시퀀스가 ​​동일하면 그룹 2 시퀀스도 원합니다! –

답변

1

는 열에서 각각의 고유 한 가치의 모습의 수를 계산하려면 :

# import pandas 
import pandas as pd 

# load data into Pandas dataframe 
df = pd.read_csv("data.csv") 

# get counts for each unique Group1 value 
df["Group1"].value_counts() 
+0

그게 효과가! 고맙습니다!! –

+0

위에서 언급 한 것처럼 그룹 2를 표시하는 방법을 알고 있습니까? –

+0

이 한 줄짜리 코드는 다음과 같이해야합니다 : df.sort_values ​​("Group1") [[ "Group1", "Group2"]] join (df [ "Group1"]. value_counts(). to_frame ("Group1 Count") , on = "Group1")' – sundance