2017-03-23 3 views
1

"sparklyr"및 "SparkR"을 통해 R에서 벤치마킹하는 스파크입니다. 다른 Testdata에서 다른 기능을 테스트합니다. 열의 0과 열의 수를 계산하는 두 가지 특별한 경우에 데이터가 아무리 큰 경우에도 결과는 1 초도 안된다는 것을 깨달았습니다. 다른 모든 계산은 데이터의 크기에 따라 확장됩니다. 그래서 Spark이 아무 것도 계산하지 않는다고 생각하지만, 그 경우는 메타 데이터의 어딘가에 저장되고 데이터를로드하는 동안이 결과가 계산됩니다. 나는 내 기능을 테스트했고 항상 저에게 올바른 결과를주었습니다.Spark DataFrame (RDD)의 메타 데이터

열의 0 수와 null 수가 데이터 프레임의 메타 데이터에 저장되어 있는지 여부를 확인할 수있는 사람이 있는지, 그렇지 않은 경우 왜 올바른 값으로 빨리 반환합니까?

답변

0

열 데이터가 포함 된 Spark DataFrame과 관련된 메타 데이터가 없습니다. 그러므로, 당신이 측정 한 성능 차이는 다른 어떤 것으로 인한 것입니다. 재현 할 수없는 예제 없이는 말하기가 어렵습니다.

관련 문제