거대한 데이터 세트 (2653, 17)가 있습니다. value_counts 메서드에서 추론 한 것처럼 두 개의 열과 관련이 있지만 정확하지는 않습니다. 제가 의미하는 것은 I의 해당 항목의 대부분이 M이거나 C가 NaN입니다. 이 방법을 확인하거나이 방법과 관련된 항목 수를 계산할 수 있습니까? 숫자 값으로 변환하고 상관 기법을 사용해 보았지만 여기서는 효과가 없다고 생각합니다.데이터 세트의 열을 파이썬과 비교하면
1
A
답변
0
크로스 탭 두 범주 형 변수 사이의 관계를 확인하기 위해 초기에있어서 같아야 또한 도움이 될 수있는 시각화
sex M
customer_type
C 3 0
I 0 4
df = pd.DataFrame(data = {'customer_type': ['I','I','I','C','C','C','I'],
'sex': ['M','M','M','','','','M']})
print(df)
print(pd.crosstab(df.customer_type, df.sex))
출력
+0
크로스 탭 메서드는 pd.crosstab을 사용할 때 "이름이 여러 번 나타나지 않고 레벨 번호 사용"오류로 인해 내 데이터 집합에 전체 그림을 표시하지 않습니다. train.sex, train.customer_type, 여백 = True, dropna = 거짓). 이것은 내가 생각하는 교차 분석의 버그입니다 https://github.com/pandas-dev/pandas/issues/13279 및 https://github.com/pandas-dev/pandas/issues/10772 – deadcode
관련 문제
- 1. 대형 데이터 세트의 Postgres에 열을 놓기
- 2. scikit 데이터 세트의 열을 액세스 내가로드하고
- 3. 한 데이터 세트의 열을 다른 데이터 세트로 복사
- 4. 데이터 세트의 열에서 작업
- 5. 정규식의 파이썬과 바이너리 데이터
- 6. 여러 데이터 세트에 대해 데이터 세트의 기존 열을 사용하여 r 열을 동적으로 생성합니다.
- 7. 상호 배제 된 데이터 세트의 열을 선택하는 위젯
- 8. SSRS에서 동시에 한 데이터 세트의 변수와 열을 사용할 수 있습니까?
- 9. 데이터 세트의 열 이름을 반복하십시오.
- 10. 데이터 세트의 데이터 소스를 변경하십시오
- 11. 여러 데이터 세트의 데이터 결합
- 12. 여러 데이터 세트의 데이터 비교
- 13. 데이터 세트의 중앙값을 올바르게 계산합니까?
- 14. 2 엑셀 열을 비교하면 결과가 다른 열과 비교됩니다.
- 15. STContains를 사용하여 지리 열을 비교하면 SQL Server에서 쿼리 속도가 느려집니다.
- 16. 데이터 세트의 열 수
- 17. 데이터 세트의 일부분을 그려야합니다.
- 18. 데이터 세트의 spss 검색
- 19. 데이터 세트의 문자 집합
- 20. 데이터 세트의 퍼지 인덱스
- 21. 데이터 세트의 플롯 비율
- 22. 데이터 세트의 백분율 선택
- 23. 두 세트의 데이터 비교
- 24. 데이터 세트의 sp_msforeachdb
- 25. 데이터 세트의 패턴 일치가
- 26. 두 세트의 데이터 일치하기
- 27. 데이터 세트의 병렬화 스파크
- 28. 데이터 세트의 VBA 입력
- 29. 파이썬과 gnuplot의 방정식에 데이터 피팅
- 30. 은 파이썬과 자바를 실행하고 데이터
이 SO 게시물은 좋은 pl 수 있습니다. 에이스 시작 - https://stackoverflow.com/questions/25571882/pandas-columns-correlation-with-statistical-significance. ASFAIK,이 테스트를 수행하려면 해당 글자를 고유 한 숫자 값으로 변환해야합니다. – TheF1rstPancake
'pd.crosstab (df.customer_type, df.sex)'를 사용하여 탭을 교차시킬 수 없습니까? –
또 다른주의해야 할 것은 "성별"열에 많은 변화가 없다는 것입니다. 그래서 매우 도움이되지 않을 것 같습니다. 그러나 그것은 현재의 문제의 범위를 벗어날 수 있습니다. – TheF1rstPancake