Spark에 takeSample()
함수를 사용하려고하는데 매개 변수는 - 데이터, 취할 샘플 수 및 시드입니다. 하지만 나는 그 씨앗을 사용하고 싶지 않습니다. 나는 매번 다른 대답을 원한다. 나는 내가 어떻게 할 수 있는지 알 수 없다. 시드 값으로 System.nanoTime
을 사용했지만 데이터 유형이 일치하지 않았기 때문에 오류가 발생했습니다. 씨앗없이 사용할 수있는 takeSample()
과 유사한 다른 기능이 있습니까? 아니면 내가 다른 출력을 얻을 때마다 takeSample()
함께 사용할 수있는 다른 구현이 있습니다.Spark의 takeSample() 함수
6
A
답변
7
System.nanoTime
은 long
이고, takeSample
으로 예상되는 시드는 Int
입니다. 따라서 takeSample(..., System.nanoTime.toInt)
이 작동해야합니다.
1
System.nanoTime
은 long을 반환하지만 takeSample은 Int를 예상합니다.
scala.util.Random.nextInt
을 seed 값으로 takeSample 함수에 제공 할 수 있습니다.
1
Spark 버전 1.0.0부터 seed
매개 변수는 선택 사항입니다. https://issues.apache.org/jira/browse/SPARK-1438을 참조하십시오.
관련 문제
- 1. Spark :: KMeans가 takeSample()을 두 번 호출합니까?
- 2. 반복적 인 함수 호출을 사용하는 Scala/Spark의 플랫 맵
- 3. Apache Spark의 파일에 쓰기
- 4. Spark의 '지속'또는 '캐시'범위
- 5. Spark의 중첩 된 레이아웃?
- 6. Apache Spark의 선형 회귀
- 7. Spark의 SVMWithSGD가 작동하지 않습니다.
- 8. Spark의 합계가 좋지 않음
- 9. spark의 문자열에서 Stopwords 제거
- 10. Spark의 Hadoop DistributedCache 기능
- 11. Spark의 클래스 nullPoint 예외
- 12. Apache Spark의 원격 작업 (Java)
- 13. Apache Spark의 데이터 프레임 분할
- 14. Spark의 동일한 DataFrame에서의 병렬 쓰기
- 15. Spark의 .newAPIHadoopFile() Java에서 사용하는 방법
- 16. Spark의 두 DStream의 직교 제품
- 17. 변수가 Spark의 바인딩 값이 아닙니다.
- 18. Spark의 누산기를 함수에 전달하려면 어떻게해야합니까?
- 19. Hadoop/Spark의 다른 그래프 처리 방법은 무엇입니까
- 20. Sequence 을 만들고 Spark의 foreachPartition 함수에 저장합니다.
- 21. Spark의 사례 클래스에 쪽모이 세팅 파일을로드하는 성능
- 22. GC가 Spark의 작업자 노드에서 호출 될 때
- 23. OpenHashSet을 Spark의 응용 프로그램에서 사용하는 방법은 무엇입니까?
- 24. Apache Spark의 예쁜 인쇄 json 파일 읽기
- 25. Apache Spark의 다중 행 입력기 (자바를 사용)
- 26. EMR은 여전히 Spark의 EC2보다 이점이 있습니까?
- 27. Spark의 Map Task에서 거대한 메모리 사용
- 28. Spark의 ALS.transImplicit에서 선호/확신을 결정하는 방법?
- 29. Flex3 및 Flex4의 Halo와 Spark의 차이점은 무엇입니까?
- 30. NoSuchElementException : MapPartitionsToPair-Spark의 빈 반복자에서 다음
스칼라에서 '.intInt'는'.intValue'보다 우선해야합니다. –
@ RégisJean-Gilles 고마워요. –