2013-02-04 2 views
6

SparktakeSample() 함수를 사용하려고하는데 매개 변수는 - 데이터, 취할 샘플 수 및 시드입니다. 하지만 나는 그 씨앗을 사용하고 싶지 않습니다. 나는 매번 다른 대답을 원한다. 나는 내가 어떻게 할 수 있는지 알 수 없다. 시드 값으로 System.nanoTime을 사용했지만 데이터 유형이 일치하지 않았기 때문에 오류가 발생했습니다. 씨앗없이 사용할 수있는 takeSample()과 유사한 다른 기능이 있습니까? 아니면 내가 다른 출력을 얻을 때마다 takeSample() 함께 사용할 수있는 다른 구현이 있습니다.Spark의 takeSample() 함수

답변

7

System.nanoTimelong이고, takeSample으로 예상되는 시드는 Int입니다. 따라서 takeSample(..., System.nanoTime.toInt)이 작동해야합니다.

+1

스칼라에서 '.intInt'는'.intValue'보다 우선해야합니다. –

+0

@ RégisJean-Gilles 고마워요. –

1

System.nanoTime은 long을 반환하지만 takeSample은 Int를 예상합니다.
scala.util.Random.nextInt을 seed 값으로 takeSample 함수에 제공 할 수 있습니다.

관련 문제