누락 된 값이 많고 범주 값이 더 많은 데이터 집합의 성별 분류자를 작업하고 있습니다. 범주 값을 숫자 값으로 변환하고 사용해야하는 알고리즘은 무엇입니까? 정확도를 높이려면? https://github.com/lakshmipriya04/py-sample/텍스트 데이터로 데이터 집합을 정리하고 분류에 사용하는 방법
0
A
답변
0
범주 형 변수 인코딩에는 더미 변수 만들기와 레이블 인코딩을 통한 인코딩이 있습니다.
더미 변수의 누락 값은 더미 열의 각 묶음에 대해 null-vector로 표시됩니다. 레이블 인코딩의 경우 특정 클래스 (레이블) 일 수 있습니다.
누락 된 값 문제를 해결하려면 평균 (숫자 값) 또는 모드 (범주 형)를 사용하여 문제를 풀 수 있습니다. 값이 누락 된 경우 1을 가지며 그렇지 않으면 0 인 추가 누락 값 표시 열을 만드는 것이 유용 할 수 있습니다.
imputation을 사용하면 ML의 분류자를 사용할 수 있습니다. SVC를 사용해보십시오 (바이너리 분류가 있으므로) 간단한 로지스틱 회귀부터 시작하십시오.
전신하지 않으면 XGBoost가 도움이됩니다 (데이터 집합에 누락 된 값이 있음).
하지만 약간 다른 문제가 있습니다. 텍스트를 사전 처리해야합니다. NLP에 대해 읽어보십시오.
관련 문제
- 1. 데이터 집합을 열 데이터로 채우고 그룹화하는 방법
- 2. IQueryable의 데이터로 데이터 집합을 채우려면 어떻게해야합니까?
- 3. 파이썬에서 사전 데이터로 텍스트 테이블을 사용하는 방법
- 4. weka를 사용하여 분류에 가중치 투표를 사용하는 방법
- 5. 텍스트 분류에 libsvm 사용 C#
- 6. 데이터 집합을 필터링하는 방법
- 7. 데이터 집합을 정렬하는 방법?
- 8. 문서 분류에 대한 자체 데이터 가져 오기
- 9. 전체 집합을 고려하여 데이터 집합을 작성하는 방법
- 10. NO 텍스트 분류에 대한 순한 베이 분류
- 11. 텍스트 분류에 대한 Java의 StringToWordVectore 오류
- 12. 카테고리 분류에 숫자 및 텍스트 기능을 통합하십시오.
- 13. 데이터 집합을 넘김
- 14. C#에서 데이터 집합을 분류하는 방법 - 어떻게할까요?
- 15. 이진 분류에 가우스 프로세스를 사용하는 방법은 무엇입니까?
- 16. D3 텍스트 또는 범례 사용하여 내 데이터 집합을 표시하는 방법
- 17. XtraReport에서 데이터 집합을 설정하는 방법
- 18. XML 데이터 집합을 처리하는 방법?
- 19. 튜플의 데이터 집합을 절감하는 방법
- 20. 기능 선택 텍스트 분류에 대한 상호 정보
- 21. 다른 데이터로 다른 부분 집합을 곱하면됩니다.
- 22. 빈 데이터 집합을 사용하는 RDLC 보고서
- 23. R에서 여러 줄 ggplot에 대해 Excel 데이터 집합을 사용하는 방법?
- 24. Crystal Reports에서 두 데이터 집합을 그룹화하지 않고 사용하는 방법
- 25. 몇 가지 .net 프로젝트에서 동일한 데이터 집합을 사용하는 방법
- 26. SSIS 패키지에서 변수 데이터 집합을 두 번 사용하는 방법
- 27. 기존 속성을 정리하고 Photoshop에서 메타 데이터 템플릿으로 바꾸는 방법 (스크립팅)?
- 28. scikit에서 CSV 데이터를로드하고 Naive Bayes 분류에 사용하는 방법
- 29. 텍스트 파일을 정리하고 나는이 유사한 텍스트 파일이 CSV
- 30. 데이터 집합을 C로 목록으로 변환하는 방법
주어진 제품 카테고리의 성별을 분류해야하므로 sub_sub_category, 설명 및 제목 기능을 삭제할 수 있습니까? //github.com/lakshmipriya04/py-sample – LPR
가능합니다. 그러나 정확성이 좋지 않다면 sub_sub_category, 설명 및 제목을 반환하는 것이 나중에 잘못되지는 않습니다. – avchauzov
설명을 살펴보십시오. 때때로 '여성', '남성', '여성', '남성'이 있음을 볼 수 있습니다. '짧은 모델'이 완벽하지 않은 경우이 토큰은 매우 유용 할 수 있습니다. – avchauzov