2017-12-01 3 views
0

거대한 데이터 집합이 있는데 줄 단위로 읽으려고합니다. 지금, 나는 팬더 사용하여 데이터 세트 읽고있다 :이 기능은 내가 첫 번째 라인을 읽을 수팬더가있는 csv에서 특정 줄 번호를 읽는 방법

df = pd.read_csv("mydata.csv", sep =',', nrows = 1) 

을,하지만 어떻게 내가는 두 번째, 세 번째 하나를 읽을 수 있습니까? (나는 판다를 사용하고 싶습니다.)

편집 : 이 좀 더 명확하게하기 위해, 나는 데이터 집합 20기가바이트 내가 메모리에있는 모든 물건을 유지할 수 없기 때문에 한 번에 하나 개의 라인을 읽을 필요가있다. 당신은 nrows = 1 사용하는

+0

전체 데이터 세트를 읽을 수 없습니다. 20GB이고 이번에는 필요 없습니다. @ SandeepKadapa –

답변

1

팬더 설명서에 보면은, read_csv 함수에 대한 매개 변수가 목록에 의해 색인 된 행 :

skiprows = [0,1] 

첫 번째 행과 두 번째 행을 건너 뜁니다. 따라서 nrowskiprows을 조합하면 데이터 집합의 각 행을 별도로 읽을 수 있습니다.

0

는 느릅 나무는 "읽을 수있는 파일의 행의 수. 큰 파일의 조각을 읽기위한 유용한"를 의미

그래서 당신은 단지 첫 번째 행을 읽고 중지를 말하는됩니다.

모든 csv 파일을 DataFrame으로 읽은 다음 줄 단위로 이동하려면 인수를 제거해야합니다. 목록이가 건너 뜁니다이 매개 변수에 할당 된 경우

skiprows 

:

사용에 대한 자세한 내용은 문서를 참조하십시오 : https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html

+0

전체 데이터 세트를 읽을 수 없다는 질문을 명확하게 기재했습니다. @ Aymen –

관련 문제