Fillna 당신이 원하는 것을 :
categorial_data = pd.DataFrame({'sex': ['male', 'female', 'male', 'female'],
'nationality': ['American', 'European', float('nan'), 'European']})
print(categorial_data)
categorial_data=categorial_data.fillna('some_unique_string')
print('after replacement')
print(categorial_data)
encoder = DV(sparse = False)
encoded_data = encoder.fit_transform(categorial_data.T.to_dict().values())
print(encoded_data)
당신에게 전가라고 누락 된 값을 채 웁니다
nationality sex
0 American male
1 European female
2 NaN male
3 European female
after replacement
nationality sex
0 American male
1 European female
2 some_unique_string male
3 European female
[[ 1. 0. 0. 0. 1.]
[ 0. 1. 0. 1. 0.]
[ 0. 0. 1. 0. 1.]
[ 0. 1. 0. 1. 0.]]
한 가지 방법을 제공합니다; Amelia II 문서는 누락 된 데이터 문제와 한 가지 해결책을 매우 자세히 설명하기 때문에 읽을 수 있습니다. 더욱이, 일부 평균값을 채우는 것은 명백히 나쁜 생각이며 이에 대한 약간의 문헌이 있습니다. – Sycorax
@amoeba pandas는 R의'data.frame'과'data.table'와 비슷한 데이터 프레임 기능을 추가하는 Python 모듈입니다. – Sycorax
@Sycorax 예, 알고 있습니다. –