큰 .csv
약 20MB
의 읽어야합니다. 이러한 파일은 8
열과 5198
행으로 구성된 테이블입니다. 특정 열 I
에 대한 일부 통계를 수행해야합니다.Python : 대형 .csv 파일을 읽는 가장 좋은 방법은 무엇입니까?
나는 내가하는 일 n
다른 파일이 있습니다
stat = np.arange(n)
I = 0
for k in stat:
df = pd.read_csv(pathS+'run_TestRandom_%d.csv'%k, sep=' ')
I+=df['I']
I = I/k ## Average
이 프로세스는 0.65s
소요하고 가장 빠른 방법이 있는지 궁금.
아마도'pd.read_csv'에'memory_map = True'를 지정하려고 시도합니다 –
- 데이터가 배타적으로 숫자이면 ** csv ** 모듈을 사용할 필요가 없습니다. ** split **을 사용할 수 있습니다. - 사전을 사용하여 레코드 필드에 액세스하는 데 약간의 오버 헤드가 있습니다. 대신 CSV의 헤더에서 ** 찾기 **를 사용한 다음 해당 색인을 사용하여 분할 레코드에서 항목을 얻을 수 있습니다. –
첫 번째 행은 숫자가 아니지만'split'을 사용할 수 있습니까? – emax