거대한 CSV 파일 (20G 이상)을 처리하려고했지만 전체 CSV 파일을 메모리로 읽을 때 프로세스가 중단되었습니다. 이 문제를 피하기 위해 두 번째 줄을 한 줄씩 읽으려고합니다.거대한 CSV 파일의 데이터를 효율적으로 읽음
예를 들어, 2 열이 포함
- XXX 같은 데이터는 컴퓨터 알고리즘을 내 코드는 전체 열을 위해 일하고
import collections wordcount = collections.Counter() with open('desc.csv', 'rb') as infile: for line in infile: wordcount.update(line.split())
를 구축,
XXX 좋다 CSV 리더를 사용하지 않고 두 번째 열만 읽는 방법은 무엇입니까?
많은 양의 데이터를 메모리에로드하는 대신 반복 (for 루프/출력)을 사용할 수 있습니다. 나는 당신이 각 부분에 대해 얼마나 많은 통제력을 갖고 있는지 모르기 때문에 예를들 수 없습니다. –
@DennisKuypers, 감사합니다. 얼마나 많은 통제력을 갖고 있니? – Kun
무슨 뜻입니까? 코드를 변경하거나 한 라이브러리의 결과를 다음 라이브러리로 가져갈 수 있습니까? 어쩌면'descs : 무언가를 위해'를 사용하여 결과를 하나씩 반복 할 수 있습니다. 아마도'.tolist()'를 생략해야 할 것이다. 다시, 나는 도서관을 모른다. 그래서 나는 당신에게 적절한 방법을 말할 수 없다. –