2016-10-18 2 views
2

python pandas csv reader를 사용하여 청크 분할 된 데이터를 가져 와서 메모리 오류를 극복하고 DicVectorizer를 사용하여 문자열을 부동 dtypes로 변환하려고합니다. 그러나 두 개의 다른 문자열이 변환 후 동일한 코드를 갖는 것을 볼 수 있습니다. 청크 분할 된 데이터에서 데이터 형식 변환을 수행하는 대체/옵션이 있습니까?청크 분할 된 데이터에 DictVectorizer를 사용할 수 있습니까?

답변

2

팬더 0.19에서는 열을 Categorial로 read_csv에서 선언 할 수 있습니다. documentaion을 참조하십시오.

는 그래서 문서에 대한 예로서,이처럼 CSV에 col1라는 이름의 열을 입력 할 수 있습니다 및 메모리 풋 프린트 감소 :이 경우에

pd.read_csv(StringIO(data), dtype={'col1': 'category'}) 
+0

을, 괜찮아 두 개의 서로 다른 열 두 개의 서로 다른 문자열 같은 코드가 있습니까? –

+1

categorials의 구성에 따라 두 개의 다른 문자열에는 두 개의 다른 코드가 있습니다. 어떤 경우에도 categorials의 목표는 문자열로 코드를 조작하고 코드를 숨기고 성능을 위해 장면 뒤에 사용하는 것입니다. 이 걱정하지 않아야합니다 – Boud

+0

ok..thanks ..... –

관련 문제