한 번 전체 파일을 읽을 수없는 큰 (수 GB) 파일을 여는 것을 가정 해 봅니다.awk를 사용하여 청크로 데이터를 처리하고 저장하는 방법은 무엇입니까?
for chunk in pd.read_csv('path/filename', chunksize=10**7):
# save chunk to disk
을 아니면 팬더와 비슷한 뭔가를 할 수 : 그것은 csv 파일이 있다면
, 우리가 사용하는 것이
import pandas as pd
with open(fn) as file:
for line in file:
# save line to disk, e.g. df=pd.concat([df, line_data]), then save the df
어떻게 않는 awk 스크립트 하나 "덩어리"데이터? Awk는 텍스트를 원하는 형식으로 파싱/처리하지만 awk로 "덩어리"하는 방법을 모르겠습니다. 하나는 스크립트 script1.awk
을 작성한 다음 데이터를 처리 할 수 있지만이 작업은 전체 파일을 한 번에 처리합니다. 더 구체적인 예와
관련 질문 : How to preprocess and load a "big data" tsv file into a python dataframe?
awk이 조건에 따라 큰 파일을 여러 파일로 나눌 수 있는지 묻고 있습니까? 그렇다면 _ 가능합니다. 입력 파일과 같은 더 많은 정보를 제공하고 그것을 어떻게 처리하길 원한다면 더 많은 도움이 될 것입니다 – Inian
기본적으로 한 줄씩 읽지 않습니다 (다른 레코드 구분 기호를 지정하기 위해 RS를 사용하여 변경할 수 있음) - 따라서 파일 크기 멍청이야? – Sundeep
무엇에 관한 질문입니까? awk 또는 python/pandas? 이미 파이썬을 사용하고 있다면 awk를 사용하여 요점을 보지 못합니다. –