팬더 데이터 프레임에 메시지가있는 200,000 개의 행이 있습니다. 평균적으로 각 메시지는 이모티콘을 뿌린 230자를 포함합니다. #@/:%.,_-
Python. 대용량 데이터 세트에서 이모티콘과 구두점을 제거하는 효율적인 방법
가 무슨 일을 가장 효율적인 방법이 될 것입니다 :
지금은 하부 및 상부 영어와 러시아어 편지와 이러한 기호를 제외한 모든 필터링 할?
팬더 데이터 프레임에 메시지가있는 200,000 개의 행이 있습니다. 평균적으로 각 메시지는 이모티콘을 뿌린 230자를 포함합니다. #@/:%.,_-
Python. 대용량 데이터 세트에서 이모티콘과 구두점을 제거하는 효율적인 방법
가 무슨 일을 가장 효율적인 방법이 될 것입니다 :
지금은 하부 및 상부 영어와 러시아어 편지와 이러한 기호를 제외한 모든 필터링 할?
"가장 효율적인 방법은 무엇입니까?" → 이것은 수십 MB의 데이터입니다. 왜 중요합니까? – Veedrac