나는 Encoding: latin-1
을 가지고 있고 ;
으로 구분 된 팬더 데이터 프레임을 가지고 있습니다. 데이터 프레임은 매우 커서 size: 350000 x 3800
입니다. 처음에는 sklearn을 사용하고 싶었지만 sklearn의 임의의 포리스트 나 GBM을 사용할 수 없도록 데이터 프레임에 값 (NAN values
)이 누락되었습니다. 그래서 난 H2O's
데이터 집합의 훈련을위한 분산 임의의 숲을 사용해야했다. 가장 큰 문제는 h2o.H2OFrame(data)
일 때 데이터 프레임이 효율적으로 변환되지 않는다는 것입니다. 인코딩 옵션을 제공 할 수 있는지 확인했지만 문서에는 아무 것도 없습니다.팬더 데이터 프레임을 h2o 프레임으로 효율적으로 변환
누구에게이 아이디어가 있습니까? 어떤 단서라도 나를 도울 수 있습니다. 또한 NAN 값을 매우 효율적으로 처리 할 수있는 H2O와 같은 다른 라이브러리가 있는지 알고 싶습니다. 나는 우리가 컬럼을 전가 할 수 있다는 것을 알고 있지만 값이 없다면 내 컬럼이 다른 센서의 값이기 때문에 데이터 세트에서 그렇게해서는 안됩니다. 센서가 없다는 것을 의미합니다. 파이썬 만 사용할 수 있습니다.
Xgboost는 누락 된 값을 완벽하게 다룰 수 있습니다. – CrazyElf
@CrazyElf, 그래, 내가 xgboost에 대해 읽었지 만, 문제는 내가 소스 코드에서 빌드를 만들 수 없다. 왜냐하면 나는 직장에서 내 노트북에 자식이나 mingw를 설치할 수있는 관리자 권한이 없기 때문이다. 하지만 난 pip를 사용할 수 있으며, 불행히도 xgboost에 대한 pip 지원은 제거됩니다. – ayaan
xgboost는 여기에서 설치할 수 있습니다 : http://www.lfd.uci.edu/~gohlke/pythonlibs/#xgboost 완벽하게 작동합니다. . – CrazyElf