2017-12-30 13 views
1

거대한 데이터 세트 (2653, 17)가 있습니다. value_counts 메서드에서 추론 한 것처럼 두 개의 열과 관련이 있지만 정확하지는 않습니다. 제가 의미하는 것은 I의 해당 항목의 대부분이 M이거나 C가 NaN입니다. 이 방법을 확인하거나이 방법과 관련된 항목 수를 계산할 수 있습니까? 숫자 값으로 변환하고 상관 기법을 사용해 보았지만 여기서는 효과가 없다고 생각합니다.데이터 세트의 열을 파이썬과 비교하면

enter image description here

+1

이 SO 게시물은 좋은 pl 수 있습니다. 에이스 시작 - https://stackoverflow.com/questions/25571882/pandas-columns-correlation-with-statistical-significance. ASFAIK,이 테스트를 수행하려면 해당 글자를 고유 한 숫자 값으로 변환해야합니다. – TheF1rstPancake

+2

'pd.crosstab (df.customer_type, df.sex)'를 사용하여 탭을 교차시킬 수 없습니까? –

+1

또 다른주의해야 할 것은 "성별"열에 많은 변화가 없다는 것입니다. 그래서 매우 도움이되지 않을 것 같습니다. 그러나 그것은 현재의 문제의 범위를 벗어날 수 있습니다. – TheF1rstPancake

답변

0

크로스 탭 두 범주 형 변수 사이의 관계를 확인하기 위해 초기에있어서 같아야 또한 도움이 될 수있는 시각화

sex    M 
customer_type  
C    3 0 
I    0 4 

: https://stats.stackexchange.com/questions/147721/which-is-the-best-visualization-for-contingency-tables

df = pd.DataFrame(data = {'customer_type': ['I','I','I','C','C','C','I'], 
      'sex': ['M','M','M','','','','M']}) 
print(df) 
print(pd.crosstab(df.customer_type, df.sex)) 

출력

+0

크로스 탭 메서드는 pd.crosstab을 사용할 때 "이름이 여러 번 나타나지 않고 레벨 번호 사용"오류로 인해 내 데이터 집합에 전체 그림을 표시하지 않습니다. train.sex, train.customer_type, 여백 = True, dropna = 거짓). 이것은 내가 생각하는 교차 분석의 버그입니다 https://github.com/pandas-dev/pandas/issues/13279 및 https://github.com/pandas-dev/pandas/issues/10772 – deadcode

관련 문제