데이터 프레임이 15 열/변수입니다 (범주 번호 & 나머지 숫자 4 개). 모든 범주 형 변수에 대해 더미 변수를 만들었습니다. 이제 새로운 데이터 프레임에서 변수의 수를 찾고 싶습니다.pyspark 데이터 프레임의 열 수를 계산 하시겠습니까?
내가 printSchema의 길이를 계산하는 시도하지만, printSchema가 nonetype입니다 :
print type(df.printSchema())
데이터 프레임이 15 열/변수입니다 (범주 번호 & 나머지 숫자 4 개). 모든 범주 형 변수에 대해 더미 변수를 만들었습니다. 이제 새로운 데이터 프레임에서 변수의 수를 찾고 싶습니다.pyspark 데이터 프레임의 열 수를 계산 하시겠습니까?
내가 printSchema의 길이를 계산하는 시도하지만, printSchema가 nonetype입니다 :
print type(df.printSchema())
당신이 찾는 그것은 잘못된 방법으로, 여기에 printSchema이과에 대한 샘플 예제입니다 -
df = sqlContext.createDataFrame([
(1, "A", "X1"),
(2, "B", "X2"),
(3, "B", "X3"),
(1, "B", "X3"),
(2, "C", "X2"),
(3, "C", "X2"),
(1, "C", "X1"),
(1, "B", "X1"),
], ["ID", "TYPE", "CODE"])
print len(df.columns) #3
columns
은 모든 열의 목록을 제공하며 len을 확인할 수 있습니다. 대신 printSchema
은 열과 데이터 유형이있는 df의 스키마를 아래 예와 같이 인쇄합니다. -
root
|-- ID: long (nullable = true)
|-- TYPE: string (nullable = true)
|-- CODE: string (nullable = true)
콘솔에서 len (df.columns)을 선택하면 충분하지 만 인쇄 할 필요는 없습니다. – kartik
무엇을 시도 했습니까? 웹을 검색 했습니까? –
len (df.columns)을 확인하십시오. –