2017-03-15 2 views
-3

데이터 프레임이 15 열/변수입니다 (범주 번호 & 나머지 숫자 4 개). 모든 범주 형 변수에 대해 더미 변수를 만들었습니다. 이제 새로운 데이터 프레임에서 변수의 수를 찾고 싶습니다.pyspark 데이터 프레임의 열 수를 계산 하시겠습니까?

내가 printSchema의 길이를 계산하는 시도하지만, printSchema가 nonetype입니다 :

print type(df.printSchema()) 

+0

무엇을 시도 했습니까? 웹을 검색 했습니까? –

+1

len (df.columns)을 확인하십시오. –

답변

3

당신이 찾는 그것은 잘못된 방법으로, 여기에 printSchema이과에 대한 샘플 예제입니다 -

df = sqlContext.createDataFrame([ 
    (1, "A", "X1"), 
    (2, "B", "X2"), 
    (3, "B", "X3"), 
    (1, "B", "X3"), 
    (2, "C", "X2"), 
    (3, "C", "X2"), 
    (1, "C", "X1"), 
    (1, "B", "X1"), 
], ["ID", "TYPE", "CODE"]) 



print len(df.columns) #3 

columns은 모든 열의 목록을 제공하며 len을 확인할 수 있습니다. 대신 printSchema은 열과 데이터 유형이있는 df의 스키마를 아래 예와 같이 인쇄합니다. -

root 
|-- ID: long (nullable = true) 
|-- TYPE: string (nullable = true) 
|-- CODE: string (nullable = true) 
+0

콘솔에서 len (df.columns)을 선택하면 충분하지 만 인쇄 할 필요는 없습니다. – kartik

관련 문제