2017-11-23 1 views
0

팬더 데이터 프레임에 메시지가있는 200,000 개의 행이 있습니다. 평균적으로 각 메시지는 이모티콘을 뿌린 230자를 포함합니다. #@/:%.,_-Python. 대용량 데이터 세트에서 이모티콘과 구두점을 제거하는 효율적인 방법

가 무슨 일을 가장 효율적인 방법이 될 것입니다 :

지금은 하부 및 상부 영어와 러시아어 편지와 이러한 기호를 제외한 모든 필터링 할?

+0

"가장 효율적인 방법은 무엇입니까?" → 이것은 수십 MB의 데이터입니다. 왜 중요합니까? – Veedrac

답변

2

str.replace^ 역전으로 사용하십시오.

df['col'] = df['col'].str.replace('[^\w\s#@/:%.,_-]', '', flags=re.UNICODE) 
+0

러시아 문자도 유지해야합니다 – Superbman

+0

@Superbman 수정 됨, 현재 작동하는지 확인 –

+0

있습니다. 감사 – Superbman

관련 문제