2017-12-11 1 views
0

저는 Spark에 대한 연구를 위해 뛰어 들고 있습니다. Spark이 어떤 일을 처리하는 방법에 대한 질문이 있습니다.Spark RDD의 네이티브 스칼라 메서드를 사용하면 Spark 매직이 손실됩니까?

키 -> 값 쌍 (CustomerID, TotalSpend)의 RDD가 있습니다. RDD에서 .sortBy를 사용하면 .sortBy가 Spark 메서드가 아닌 Scala 메서드이므로 Spark 마법을 놓치고 있습니까?

즉, Spark에서 수행하는 배포의 이점을 얻으려면 RDD의 Spark 메소드 만 사용할 수 있습니까? 나는 사람들이 rdd.sortBy (x => x._2)와 같은 것을하고 싶어하는 예제를 보았지만 대신 rdd.reduceByKey()를 사용하여 튜플 멤버들을 뒤집기 위해 먼저 rdd를 매핑 할 것이다.

답변

1

RDD.sortBy 등 RDD와 관련된 모든 것이 Spark에서 비롯되며 Scala 표준 라이브러리의 일부가 아닙니다. RDD의 모든 개념은 Spark에서 제공되기 때문에 RDD와 함께 작동하는 표준 Scala 메서드는 없습니다.

+0

Duh. 그것이 나에게 일어나지 않았다는 것을 믿을 수 없다. 필자는 Spark이 스칼라 컬렉션 기능을 RDD로 확장 시켰다고 생각했다. 감사. – CubemonkeyNYC

관련 문제