2017-10-02 1 views
0

팬더 데이터 프레임으로 읽은 두 개의 개별 csv 파일이 있습니다. 나는 이미 약간의 청소를하고 테이블에 날짜 열에 합류했습니다. 나는 'ExerciseTime'이라는 또 다른 칼럼을 가지고 있으며 운동 시간대의 가져온 시간 형식을 float 형식, 즉 22:30:00 (10:30 pm)에서 22.5 (float 값)로 변환했습니다.null 값을 무시하면서 Pandas 데이터 프레임의 float 값으로 변환

하루의 운동 시간과 수면의 질을 비교하여 train/test split 분석을 실행하고 싶습니다 (이것은 Garmin 연결 데이터 및 절전주기 데이터입니다). 현재에는 정확성/상관 관계가 거의 없지만 'ExerciseTime'열을 시간당 더미 변수로 사용하면 도움이 될 수 있습니다. 나는 열의 모든 값을 정수 값 (위아래로 반올림)으로 변환하고 null이있는 모든 인스턴스 (무시한 날)를 무시하고 싶습니다.

JoinedTables = JoinedTables[JoinedTables.ExerciseTime.astype(int)] 

것은 무엇 널 (null)을 무시하고 정수로 플로트 값을 변환하는 가장 좋은 방법이 될 것이다 : 나는 다음과 같은 공식을 사용하면 저는 현재 오류가 무엇입니까?

또한이 유형의 데이터에 사용할 최상의 유형 모델 예측 변수를 알고있는 사람이라면 누구에게나 나는이 점에 대해 새로운 아이디어를 제공 할 것입니다. "총 운동 시간", "침대에서 술을 마신 경우", "그날 운동 유형", "달 당일 그날"과 같은 다른 데이터 포인트가 있습니다. 또한 통계적으로 통합하고 싶습니다. 내 수면에 상당한 영향을 미칩니다.

답변

0

pd.to_numeric(col, errors='coerce') 트릭 수행해야합니다

JoinedTables['ExerciseTime'] = pd.to_numeric(JoinedTables['ExerciseTime'], errors='coerce') 
+0

MaxU을, 함수는 나에게 성공적으로 값을 가지고 있지만 출력이 여전히 부동 소수점 값으로 남아 ExerciseTime 만 값을 통해 가져온 다른 열을 만들 수있었습니다. 그걸 바꾸는 방법에 대한 아이디어가 있습니까? –

+0

@DomB, __all__ 값을 정수로 변환 할 수 없으면 'float'이됩니다. 'int'로 변환 할 수없는 값이 적어도 하나 있다면'float'이 될 것입니다. 'int' dtype은'NaN' 값을 가질 수 없습니다 ... – MaxU

관련 문제