나는 A 열에있는 약 백만 개의 열의 csv 파일 (엑셀 스프레드 시트)을 가지고 있습니다.이 데이터의 히스토그램을 y 축의 숫자 빈도와 x의 숫자 수량으로 만들고 싶습니다 -중심선. 나는 팬더를 사용하고 있습니다. 내 코드 :Python에서 Excel 열을 참조/지정하는 방법은 무엇입니까?
import pandas as pd
pd.read_csv('D1.csv', quoting=2)['A'].hist(bins=50)
파이썬은 'A'를 열 이름으로 해석하지 않습니다. 열을 참조하기 위해 여러 가지 이름을 시도했지만 모두 키워드 오류가 발생합니다. 내가 그 열에 파이썬을 통해 이름을 할당해야하는 단계를 놓치고 있는가? 나는 그것을 모른다.
'df = pd.read_csv ('D1.csv', quoting = 2)'와 같이'DataFrame'에 저장하면'print df.head()'또는'print df '를 보게됩니다. columns'는 판다가 발견하고있는 열 이름을 알려줍니다. 그것들이 틀린 것처럼 보일 경우,'read_csv'에 대한'header' 인자를 변경하여 헤더 행을 건너 뛴다는 것을 볼 수 있습니다. – ely
df.head()를 인쇄하면 행 번호를 나타내는 (0,1,2,3 등)로 구성된 열과 실제로 처음 몇 개의 데이터 열이 나타납니다. df.columns를 인쇄하면 다음과 같이됩니다 : Index ([u'2903.1 '], dtype ='object ') 2903.1이 첫 번째 데이터입니다. 나는 프로그래밍에 익숙하지 않기 때문에 이것을 솔직하게 해석하는 방법을 모른다. –
이것은 스프레드 시트에 헤더 행이 없지만 헤더 인 것처럼 (데이터의) 첫 번째 행을 해석하려고 시도하고 있음을 나타냅니다. 또는 헤더 행이있는 경우 부주의로 건너 뜁니다. 원시 파일을 열면 (또는 파일의 처음 몇 개의 내용 행에 cat) 머리글 행이 표시됩니까? 그렇다면'header = 0' 인자로'read_csv' 함수를 호출 할 수 있습니다. 그래도 작동하지 않으면 데이터 파일에 실제로 헤더 행이 없다는 것을 의미 할 수 있습니다. 이 경우,'names = [ 'A', 'B', ...]'와 같은 이름 목록을 전달할 수 있으며, 그 이름을 사용하게됩니다. – ely