2008-09-04 4 views
11

대용량 CSV 파일을 읽는 데 유용한 프로그램이 있습니까? 내가 처리하는 데이터 파일 중 일부는 1GB 범위에 있습니다. 엑셀이 처리 할 라인이 너무 많습니다. Access를 사용하면 실제로 데이터베이스로 직접 가져와 데이터베이스와 직접 작업해야하므로 약간 느려질 수 있습니다. 대용량 CSV 파일을 열 수있는 프로그램이 있으며 데이터를 쉽고 빠르게 스캔하는 데 도움이되는 간단한 스프레드 시트 레이아웃을 제공합니까?대용량 CSV 파일 작업 프로그램

+0

예, 있습니다. [OpenRefine] [1] (또는 Google 상세 검색)을 사용할 수 있습니다. OpenRefine은 스테로이드 스프레드 시트와 같습니다. 조작 할 수있는 파일 크기는 컴퓨터의 메모리에 따라 다릅니다. [1] : http://openrefine.org –

답변

8

MySQL은 LOAD DATA INFILE 명령을 사용하여 테이블에 CSV 파일을 매우 빠르게 가져올 수 있습니다. CSV storage engine을 사용하여 가져 오기 절차를 거치지 않고 직접 CSV 파일에서 읽을 수도 있습니다.

LOAD DATA INFILE으로 원시 테이블로 가져 오는 것은 시작 비용이 들지만 그 후에는 인덱스 필드뿐만 아니라 INSERT/UPDATE 훨씬 빠릅니다. CSV 스토리지 엔진은 처음에는 거의 순간적으로 사용되지만 순차 스캔 만 빠릅니다.

업데이트 : This article (즉시 데이터를로드 섹션으로 스크롤)의 사용에 대한 이야기 ​​모두의 MySQL에로드 CSV 데이터에 접근 및 예제를 제공합니다.

+0

저는 15-30MB CSV 파일로 구성된 Real Estate MLS 데이터 세트로 작업했습니다. MySQL LOAD INFILE이 없으면 각 피드는 처리하는 데 1 시간 이상이 걸렸지 만 MySQL과 원시 테이블을 사용하면 더 큰 데이터 세트의 경우에도 5-6 분 정도의 처리 시간을 줄일 수 있습니다. – David

2

vEdit이 좋습니다. 나는 일상적으로 100+ meg (나는 당신이 한 곳의 공연에 대해 말한 것을 알고 있으며, 사이트에서 2 배로 처리 할 수있는 광고를한다고 생각한다) 파일을 열어 둔다. 그것은 정규 표현식 지원과 다른 많은 기능을 가지고 있습니다. 70 달러는 당신이 할 수있는 금액만큼 싸다.

0

vEdit은 훌륭하지만 항상 "기본 사항"으로 돌아가서 Cygwin을 확인하고 greping을 시작할 수 있음을 잊지 마십시오.

Helpfull는

  • 머리
  • 꼬리 코스 펄의
    • 그렙 명령!
  • 1

    GVim은 실제 스프레드 시트 정적 필드 크기보기에 첨부되지 않은 경우 무료로 큰 파일을 처리 할 수 ​​있습니다.

    0

    실제로 데이터로 수행하고자하는 작업에 따라 다릅니다. 이런 대용량 텍스트 파일을 사용하면 일반적으로 한 번에 데이터의 작은 부분 집합 만 원하기 때문에 원하는 부분을 찾아 내고 작업하기 위해 'grep'과 같은 도구를 간과하지 마십시오.

    0

    데이터를 메모리에 저장할 수 있고 파이썬을 좋아한다면 UniTable 부분 인 Augustus을 확인하는 것이 좋습니다. (면책 조항 : 아우구스투스는 오픈 소스 (GPLv2)이지만, 필자는이 회사를 위해 일하고 있습니다.)

    이것은 잘 설명되어 있지 않지만 이것이 도움이 될 것입니다.

    from augustus.kernel.unitable import * 
    a = UniTable().from_csv_file('filename') 
    b = a.subtbl(a['key'] == some_value) #creates a subtable 
    

    직접적인 인터페이스는 아니지만 약간의 작업만으로 많은 통계를 빠르게 얻을 수 있습니다.

    7

    reCSVeditor은 대용량 CSV 파일을 편집하기위한 훌륭한 프로그램입니다. 불필요한 열을 제거하는 데 이상적입니다. 필자는 1,000,000 개의 파일을 매우 쉽게 파일에 사용했습니다.

    +0

    +1 reCSVeditor는 거의 2GB 파일> 2,000,000 행으로 나를 위해 일했습니다. –

    +0

    안녕하세요, 저는 우편 번호를 다운로드했으나 사용 방법을 보여주지 못했습니다. 어떻게 도와 주실 수 있습니까? – aasthetic

    +0

    @ richi_18007 Recsveditor가 내용을 압축 해제 한 다음 설치 프로그램을 실행합니다. –