나는 팬더에서 5 천만 행의 데이터 프레임을 작업 중입니다. 열을 훑어보고 텍스트의 특정 부분을 추출해야합니다. 열에는 4 또는 5 패턴으로 정의 된 문자열 값이 있습니다. 텍스트를 추출하고 원래 문자열을 대체해야합니다. 나는 이것을 위해 apply 함수와 regex를 사용하고있다. 이것은 실행 날에 가까운 날 걸립니다. 나는 이것이 비효율적이라고 생각한다. 아니면 정상입니까? 내가 더 빨리 접근 할 수없는 접근법이 있습니까?팬더에서 5 천만 행 작업하기 (파이썬)
답변
여기 문서입니다 :
http://pandas.pydata.org/pandas-docs/stable/indexing.html
http://pandas.pydata.org/pandas-docs/stable/text.html#extracting-substrings
교체 텍스트가 쉽습니다. 하루는 정상이 아닙니다. 이 게시물의 이전 버전에서 갖고 있던 모든 목록을 제거하십시오. 너는 필요 없어. 데이터를위한 공간이 더 필요하면 데이터 프레임에 열을 추가하십시오. 데이터 유형을 학습하여 데이터를 작게 만드십시오.
import pandas as pd
df = pd.DataFrame() #import your data at this step
df['column'].str.extract(regex_thingy_here)
더 자세히 작성했지만 코드를 작성했습니다.
입력 해 주셔서 감사합니다. 그것은 정말 잘 작동하고 이제는 5 분 안에 일을 끝낼 수 있습니다. 마지막 단계로 str.extract 함수를 사용했지만 쉽게 작업을 완료하는 것이 중요했습니다. 다시 한번 감사합니다! 내 대답이 늦어서 미안해. – Vatsan28
다행이었습니다. 의견에 감사드립니다. – Back2Basics
- 1. 파이썬 팬더는 파이썬 팬더에서
- 2. 파이썬 - 팬더에서 DataFrames
- 3. 파이썬 팬더에서 시리즈 색인하기
- 4. '목록'개체 파이썬 팬더에서 호출하지
- 5. 8 천만 행 테이블에 대한 색인 생성
- 6. Yii 명령 행 작업하기
- 7. 파이썬 사전으로 작업하기
- 8. 수백만 개의 MySQL 행 작업하기
- 9. 파이썬 팬더는 잘못된 시간 파이썬 팬더에서
- 10. 팬더에서 행 작업을 더 빠르게 수행하십시오.
- 11. 조건부 조인 또는 파이썬 팬더에서 연결
- 12. MySQL - 5 천만 행의 테이블을 개선하는 방법은 무엇입니까?
- 13. 데이터베이스에 5 천만 개의 행이있는 것과 관련된 문제가 발생했습니다.
- 14. 파이썬 - 여러 디렉토리에있는 파일로 작업하기
- 15. 고유 한 인덱스가없는 팬더에서 행 삭제
- 16. DF에서 값이 평균값보다 큰 팬더에서 행 선택
- 17. 팬더에서 행 찾기 및 특정 값 업데이트
- 18. 팬더에서 hdf5 파일의 행 수를 엿보기
- 19. R : 2 천만 더하기 행 CSV를 R로 병렬화/
- 20. 파이썬 팬더에서 상관 행렬 열을 뺍니다
- 21. 파이썬 커널이 팬더에서 나누기를하는 동안 죽습니다.
- 22. 파이썬 팬더에서 다른 열 레이블 서브 플로팅
- 23. 파이썬 팬더에서 데이터 프레임에 연령대를 추가했습니다.
- 24. 기초 5 행 너비
- 25. 파이썬 팬더에서 인덱스로 행을 요약하는 깨끗하고 효율적인 방법입니다.
- 26. FIFO를 사용하여 파이썬 하위 프로세스간에 공동 작업하기
- 27. 파이썬, 유니 코드 : 잘못된 형식의 문자열로 작업하기
- 28. 파이썬 CGI로 작업하기. 빈 입력 오류
- 29. 파이썬 문자로 행 삭제하기
- 30. MySQL 처음 5 행 선택 (복수 행)
많은 코드를 붙여 넣고 "도와주세요"라는 말은 일반적으로 눈살을 찌푸리게합니다! 더 나은 점은 *** [MCVE] (http://stackoverflow.com/help/mcve) ***을 읽고 다른 사람들이 귀하를 도울 수있는 정보로 질문을 편집하십시오. – piRSquared