데이터 마이닝 리서치를 수행하고 SQLite 데이터베이스, CSV 파일, 피클 파일 등에서 대용량 데이터 세트를로드하는 Python 스크립트가있는 경우가 종종 있습니다. 개발 프로세스에서 스크립트가 자주 변경되어야하고 기다리는 시간이 20 ~ 30 초입니다. 데이터로드.대용량 데이터 셋을 Python에서 빠르게로드하려면 어떻게해야합니까?
데이터 스트림을로드하는 경우 (예 : SQLite 데이터베이스) 가끔은 작동하지만 일부 상황에서는 작동하지 않습니다. 데이터 세트를 자주 방문해야하는 경우 데이터를로드하는 데 소요되는 시간을 미리 지불해야합니다.
필자의 가장 좋은 해결책은 지금까지 최종 스크립트에 만족할 때까지 데이터를 서브 샘플링하는 것입니다. 누구든지 더 나은 솔루션/설계 방법을 가지고 있습니까?
내 "이상적인"해결책은 데이터가 메모리에로드 된 상태로 유지되도록 Python 디버거 (pdb)를 사용하고 스크립트를 편집 한 다음 주어진 지점에서 다시 시작할 수 있도록하는 것입니다. 이 작업을 수행하는
RAM 드라이브를 사용할 수 있습니까? (그리고 거기에있는 db 파일을 복사 할 수 있습니까?) 또는 데이터 량이 너무 많습니까? – nvlass