Python 2.7 사용. 문제는 적합 방법에 관한 것입니다. 숫자 입력이 불가능한 기능 (예 : Male
, Female
과 같은 문자열 유형 기능)이 필요한 경우 기능에 대한 질문입니다 (매개 변수 X
에서 제공). 필요합니까, 아니면 성능 및 기타 이유로 숫자 기능으로 변환 할 것을 권장합니다. ? 그리고이 다중 값 문자열 유형의 기능을 가지고 또한 경우scikit-learn의 로지스틱 회귀 기능 값 정규화
관련, 린 (예 : 기능의 지오가 San Francisco
의 값, San Jose
, Mountain View
등이 될 수 있음)
감사합니다 MhFarahani, 남성/여성을 0/1 또는 -1/1로 인코딩하면 예측 결과가 변경 될지 확실하지 않습니까? –
또한 인코딩에 대한 몇 가지 예제를 읽었지 만, 예를 들어이 링크 (http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html#sklearn.preprocessing)에서 혼란스러워합니다. OneHotEncoder)는 4 개의 샘플을 나타내는'[0, 0, 3], [1,1,0], [0, 2, 1], [1, 0, 2] 풍모? 그렇다면 왜 문서가 '세 가지 특징과 두 가지 샘플'이라고 혼란스러워할까요? –
남성/여성의 경우 0/1은 합당한 선택입니다. 그러나 1/1은 남녀간에 차이가 없다는 것을 나타내는 잘못된 결과를 줄 것입니다. 당신이'sklearn.preprocessing.LabelEncoder'에 당신의 기능을 넘겨 주면, 당신의 범주 적 특징을 자동으로 인코딩 할 것입니다. – MhFarahani