2017-11-21 6 views
0

Python Pandas에서 Feature Hashing을 사용하여 약간 손실되었습니다.DataFrame의 특정 열에 해시 적용

여러 종류의 정보가있는 여러 개의 열이있는 DataFrame이 있습니다. 데이터의 클래스를 나타내는 열이 하나 있습니다.

예 :

  col1 col2 colType 
    1  1  2  'A' 
    2  1  1  'B' 
    3  2  4  'C' 

내 목표는 기계 학습 알고리즘을 적용 할 수 있도록하기 위해, ColType에 대한 FeatureHashing을 적용하는 것입니다.

나는 이런 식으로 뭔가를 가지고는 colType에 대한 별도의 DataFrame을 만들었습니다 그리고

    colType value 
      1   'A'  1 
      2   'B'  2 
      3   'C'  3 
      4   'D'  4 

,이 클래스의 데이터 프레임에 대한 해싱 기능을 적용했다. 그러나 기계 학습 알고리즘의 입력으로 사용하기 위해 정보 해시 기능 결과를 DataFrame에 정보를 추가하는 방법을 이해하지 못합니다. 내 DataFrame에

from sklearn.feature_extraction import FeatureHasher 
    fh = FeatureHasher(n_features=10, input_type='string') 
    result = fh.fit_transform(categoriesDF) 

가 어떻게이 FeatureHasher 결과를 삽입 않습니다

이 내가 FeatureHashing을 사용하는 방법입니까? 내 접근 방식이 얼마나 안 좋은가? 내가하는 일을 성취 할 수있는 더 좋은 방법이 있습니까?

감사합니다.

답변

0

I이 같은 것을 사용하여, 핫 코딩 전환 : 1 또는 0

으로,이 기능은 모든 비 - 카테고리 값의 열을 생성한다

categoriesDF = pd.get_dummies(categoriesDF) 

관련 문제