현재 특정 제품의 판매를 예측하기 위해 상점 위치 및 품목 이름에 대한 데이터 세트를 가지고 있습니다.신경망에서 범주 형 기능을 처리하는 방법은 무엇입니까?
바이너리 인코딩이나 pandas get_dummies()를 사용하고 싶지만 항목에 5000 개의 이름이 있으며 메모리 오류가 발생합니다.이를 처리 할 수있는 대안이 있습니까? 모두에게 감사드립니다! 대신 대신 하나의 뜨거운 인코딩을 사용한다 더미 변수의 gazillions를 만드는
print(train.shape)
print(train.dtypes)
print(train.head())
(125497040, 6)
id int64
date object
store_nbr int64
item_nbr int64
unit_sales float64
onpromotion object
dtype: object
id date store_nbr item_nbr unit_sales onpromotion
0 0 2013-01-01 25 103665 7.0 NaN
1 1 2013-01-01 25 105574 1.0 NaN
2 2 2013-01-01 25 105575 2.0 NaN
3 3 2013-01-01 25 108079 1.0 NaN
4 4 2013-01-01 25 108701 1.0 NaN
데이터 프레임의 길이는 무엇입니까 – Dark
길이는 약 100,000,000입니다. – BenjiBB
병렬 프로그래밍을해야합니다. 1 억 행? 처리가 너무 어렵습니다 – Dark