0
여러 항목과 여러 열이 포함 된 가비지 값이 포함 된 드롭 레코드 ,하지만 여러 열의 여러 항목이있는 garbage value 양식 문자열을 제거하려고합니다.
샘플 코드 : -이 예에서
filter_list = ['$','#','%','@','!','^','&','*','null']
def filterfn(*x):
remove_garbage = list(chain(*[[filter not in elt for filter in
filter_list] for elt in x]))
return(reduce(lambda x,y: x and y, remove_garbage, True))
filter_udf = f.udf(filterfn, BooleanType())
original = original.filter(filter_udf(*[col for col in compulsory_fields]))
original.show()
는 "원래"내 원래 dataframe와 "compulsory_fields"입니다이 (가 여러 열을 저장하는) 내 배열입니다.
샘플 입력 : -
id name salary
# Yogita 1000
2 Neha ##
3 #Jay$deep## 8000
4 Priya 40$00&
5 Bhavana $$%&^
6 $% $$&&
샘플 출력 : -
id name salary
3 Jaydeep 8000
4 priya 4000