RDD로 작업 한 여러 프로젝트가 끝나면 데이터 세트를 사용하기 시작했습니다. 자바 개발에 사용하고 있습니다.데이터 세트에서 열을 호출하는 데 걸리는 비용은 무엇입니까
필자가 아는 한 열은 변경 불가능합니다. 열에 대한지도 기능은 없으며 열을 매핑하는 표준 방법은 withColumn
열을 추가하는 것입니다.
내 질문은 withColumn을 호출 할 때 실제로 발생합니다. 성과 위약금이 있습니까? 가능한 한 적은 withColumn
전화를 걸려고합니까, 아니면 중요하지 않습니까?
피기 백 질문 : 분해 또는 피벗과 같은 다른 행/열 작성 함수를 호출 할 때 성능이 저하됩니까?
withColumn의 경우 거의 없습니다. 메타 데이터의 변화입니다. 피벗은 데이터 집합을 그룹화 한 후에 만 사용할 수 있으므로 값 비쌉니다. – philantrovert
폭발은 Spark 2.2 이전의 Spark 2에서 매우 느릴 수 있습니다. https://issues.apache.org/jira/browse/SPARK-21657 –