2017-12-28 3 views

답변

0

범주 형 변수 인코딩에는 더미 변수 만들기와 레이블 인코딩을 통한 인코딩이 있습니다.

더미 변수의 누락 값은 더미 열의 각 묶음에 대해 null-vector로 표시됩니다. 레이블 인코딩의 경우 특정 클래스 (레이블) 일 수 있습니다.

누락 된 값 문제를 해결하려면 평균 (숫자 값) 또는 모드 (범주 형)를 사용하여 문제를 풀 수 있습니다. 값이 누락 된 경우 1을 가지며 그렇지 않으면 0 인 추가 누락 값 표시 열을 만드는 것이 유용 할 수 있습니다.

imputation을 사용하면 ML의 분류자를 사용할 수 있습니다. SVC를 사용해보십시오 (바이너리 분류가 있으므로) 간단한 로지스틱 회귀부터 시작하십시오.

전신하지 않으면 XGBoost가 도움이됩니다 (데이터 집합에 누락 된 값이 있음).

하지만 약간 다른 문제가 있습니다. 텍스트를 사전 처리해야합니다. NLP에 대해 읽어보십시오.

+0

주어진 제품 카테고리의 성별을 분류해야하므로 sub_sub_category, 설명 및 제목 기능을 삭제할 수 있습니까? //github.com/lakshmipriya04/py-sample – LPR

+0

가능합니다. 그러나 정확성이 좋지 않다면 sub_sub_category, 설명 및 제목을 반환하는 것이 나중에 잘못되지는 않습니다. – avchauzov

+0

설명을 살펴보십시오. 때때로 '여성', '남성', '여성', '남성'이 있음을 볼 수 있습니다. '짧은 모델'이 완벽하지 않은 경우이 토큰은 매우 유용 할 수 있습니다. – avchauzov

관련 문제