Spark RDD의 네이티브 스칼라 메서드를 사용하면 Spark 매직이 손실됩니까?

저는 Spark에 대한 연구를 위해 뛰어 들고 있습니다. Spark이 어떤 일을 처리하는 방법에 대한 질문이 있습니다.Spark RDD의 네이티브 스칼라 메서드를 사용하면 Spark 매직이 손실됩니까?

키 -> 값 쌍 (CustomerID, TotalSpend)의 RDD가 있습니다. RDD에서 .sortBy를 사용하면 .sortBy가 Spark 메서드가 아닌 Scala 메서드이므로 Spark 마법을 놓치고 있습니까?

즉, Spark에서 수행하는 배포의 이점을 얻으려면 RDD의 Spark 메소드 만 사용할 수 있습니까? 나는 사람들이 rdd.sortBy (x => x._2)와 같은 것을하고 싶어하는 예제를 보았지만 대신 rdd.reduceByKey()를 사용하여 튜플 멤버들을 뒤집기 위해 먼저 rdd를 매핑 할 것이다.

출처

2017-12-11 CubemonkeyNYC

RDD.sortBy 등 RDD와 관련된 모든 것이 Spark에서 비롯되며 Scala 표준 라이브러리의 일부가 아닙니다. RDD의 모든 개념은 Spark에서 제공되기 때문에 RDD와 함께 작동하는 표준 Scala 메서드는 없습니다.

출처

2017-12-11 14:16:22 puhlen

Duh. 그것이 나에게 일어나지 않았다는 것을 믿을 수 없다. 필자는 Spark이 스칼라 컬렉션 기능을 RDD로 확장 시켰다고 생각했다. 감사. – CubemonkeyNYC

Spark RDD의 네이티브 스칼라 메서드를 사용하면 Spark 매직이 손실됩니까?

답변

관련 문제