하지만 당신은 구분 기호를 설정해야합니다 (pip install pyread
, pandas
에 따라 다름).
는 등으로 사용할 수 있습니다 :
이
from pyread import read_auto
read_auto(PATHFILE)
기본 기능은 이제 원래의 질문에 언급 된 모든 것을 포함한다.
두 가지 방법을 사용 :
1) 그냥 데이터를로드 : 속도 문제가 경우에만 read_auto(PATHFILE)
2)가로드 할 수 있도록 파일 구조를 추론하고 사전으로 인쇄 즉시 다음 번에 예 :
from pandas.io.parsers import read_csv
# this will be printed as dict to screen
read_auto(PATHFILE, inferOnly=True)
{'filepath_or_buffer': PATHFILE, 'skiprows':1, 'sep':',', 'quotechar':'"'}
# Copy and paste the dictionary info into the file, e.g. store it in "info"
info = {'filepath_or_buffer': PATHFILE, 'skiprows':1, 'sep':',', 'quotechar':'"'}
read_csv(**info)
이렇게하면 단 한 번 유추해야하므로 대략 2 배 빨라집니다.
사람들이 정말 유용 할 다른 기능을 원한다면 내가 그 의견에 대해 알려주고 내가 할 수있는 것을 보도록하겠습니다.
클로저/다운 보우 터 : 프로그래밍 문제는 무엇입니까? – PascalVKooten
범위가 얼마나 넓습니까? 모든 CSV 형식을 인식해야합니까? 아니면 CSV + Excel 스프레드 시트를 인식해야합니까? 워드 프로세서? mp3s? 90 년대 후반 .xm modfiles? 질문에 초점을 맞추면 도움이 될 것입니다. –
어쩌면 질문에 나열된 요구 사항을 시작으로? – PascalVKooten