2014-12-08 3 views
1

n 개의 열이있는 Array [Double]의 RDD가 있다고 가정합니다. 마지막 열에 필터를 적용하려고합니다 (예 : 값> 일부 상수).벡터/배열의 RDD에 필터 적용 [Double]

  • 스칼라/아파치 스파크의 구문은 무엇입니까?
  • RDD가 벡터 인 경우 동일한 작업을 수행 할 수 있습니까?
  • 배열 (벡터의 배열 [Double] 및 RDD의 RDD) 중에서 하나를 선택할 수있는 경우 효율적/빠른 코드를 더 많이 선택하려면 어느 것을 선택해야합니까? 그

    val rdd: RDD[Array[Double]] = ... 
    val filtered: RDD[Array[Double]] = rdd.filter(arr => arr.last() > some_value) 
    

    같은

답변

2

뭔가 내가 정말 문제가 배열 또는 벡터를 무엇을 선택할 생각하지 않습니다. Spark의 전반적인 오버 헤드는 배열 대 벡터의 성능/메모리 이점보다 훨씬 높습니다.