2014-10-22 4 views
2

파이썬 패키지 사서함을 사용하고 있으며 메시지를 추출하고 데이터를 정리하려고합니다. 대형 데이터베이스의 경우 샘플 파일을 사용하여 생성자를 호출 할 수 있지만 모든 메시지를 인쇄하려고하면 프로그램이 중단되는 문제가 있습니다. 나는 그것이 내가 읽으려고하는 파일이 7GB 이상이기 때문에 그것이 있다고 추정한다. 이 문제를 어떻게 해결할 수 있습니까?큰 mbox 데이터 세트의 파이썬 사서함

답변

0

사서함을 수동으로 분할하는 것을 고려하십시오. 형식은 라인 단위로 읽음으로써 (읽기 전용 액세스 만 필요로하는 한) 매우 쉽게 처리 할 수 ​​있습니다. 개별 메시지의 실제 구문 분석에 기존 클래스를 사용할 수 있습니다.

"From"으로 시작하는 줄은 새 메일을 시작하는 mbox 형식의 정의를 찾습니다. 은이 마커에서 거대한 파일을 분리 한 다음 mailbox 패키지를 사용하여 한 번에 하나의 파일 만 읽을 수 있습니다.

관련 문제