2013-02-27 2 views
21

R Factor variable에 가장 근접한 것은 Python pandas입니까?Python Pandas에서 요인 변수와 가장 비슷한 코드

+1

보기 [이 (https://groups.google.com/forum/#!msg/pydata/figElKrdwcI/dISL07Id7dUJ). 그것은'pandas.Factor'를 factor 컬럼으로 추가 한 것으로 보입니다. 그러나 이것이 정확히 동일하지 않다고 생각합니다. 특히 누락 된 데이터가있는 경우. – agstudy

+1

http://stackoverflow.com/questions/7813132/convert-array-of-string-category-to-array-of-int-from-a-pandas-dataframe – Raufio

답변

18

이 질문은 1 년 전의 것으로 보입니다. 그러나 아직 열어두고 있기 때문에 여기에 업데이트가 있습니다. 팬더는 categorical DTYPE를 도입하며 자세한 내용은이 링크를 참조하시기 바랍니다 R.에서 factors 매우 유사 작동 :에서 "인자"변수를 생성하는 방법을 보여주는 위의 링크에서 조각을 재현

http://pandas-docs.github.io/pandas-docs-travis/categorical.html

을 팬더.

In [1]: s = Series(["a","b","c","a"], dtype="category") 

In [2]: s 
Out[2]: 
0 a 
1 b 
2 c 
3 a 
dtype: category 
Categories (3, object): [a < b < c] 
6

모델링 등을 할 계획이라면 patsy library의 요인에 대한 좋은 점이 많습니다. 나는 나 자신과 힘들어하는 것을 인정할 것이다. 나는 these slides 도움이되었다. 더 좋은 예를들 수 있기를 바랍니다. 그러나 이것은 내가 얻은 것입니다.

-1
C# array containing category data 
V # array containing numerical data 

H = np.unique(C) 
mydict = {} 
for h in H: 
    mydict[h] = V[C==h] 


boxplot(mydict.values(), labels=mydict.keys()) 
관련 문제