나는 어리석게 큰 텍스트 파일이 있다고 해봅시다. 내 파일이 ~ 500MB보다 커질 것이라고 생각하지는 않지만, 확장 성과 내 호기심 때문에 몇 권의 순서대로한다고 가정 해 봅시다.큰 텍스트 파일 (파이썬)을 읽고 쓰고 파싱하는 효율적인 방법
목표는 문장의 배열 ('?' '!' '.'과 모든 의도와 목적 ';'으로 구분)과 각 문장을 단어 배열로 매핑하는 것입니다. 몇 가지 통계 분석에 numpy를 사용하려고했습니다.
이 작업을 수행하는 가장 확장 성있는 방법은 무엇입니까?
추신 : 필자는 파일을 한 줄에 하나의 문장으로 다시 작성한다고 생각했지만 파일을 메모리에로드하려고 할 때 문제가 발생했습니다. 하나의 파일에서 데이터를 꺼내 조작하고 다른 곳으로 쓰는 해결책을 알고 있지만 디스크 메모리는 비효율적 인 것처럼 보입니다. 나도 알다시피, 대부분의 사람들은 10gig의 스크래치 공간을 요즘 사용하는 것에 대해 걱정하지 않을 것이지만, 파일의 척을 직접 편집해야하는 것처럼 보입니다.
* 모든 집중적 인 목적 * 또는 * 모든 의도와 목적을 위해 *? – MattH
sqllite와 같은 데이터베이스를 사용하지 않는 이유는 무엇입니까? – jterrace
파일을 스트림으로 스캔하고 대신 카운트를 유지하는 것이 좋습니다. 파싱이 복잡 할 것 같지 않습니까? – fge