2017-01-22 3 views
1

RDD 샘플은 어떻게 작동합니까? 다양한 매개 변수 즉, 샘플 (withReplacement, fraction, seed)의 기능은 무엇입니까?RDD 샘플 (Spark)

'withReplacement'및 'seed'매개 변수와 관련하여 웹 관련 항목을 찾을 수 없습니다. 예를 들어 설명해주십시오.

+2

아파치 스파크 (스칼라)에서 간단한 무작위 샘플링 및 데이터 프레임 SAMPLE 함수는 어떻게 작동합니까?] (http://stackoverflow.com/questions/32229941/how-do-simple-random-sampling-and- dataframe-sample-function-work-in-apache-spark) – user7337271

답변

2

분수와 시드는 매우 쉽게 추측 할 수 있습니다. 샘플에서 보려는 요소의 일부입니다 (예 : 0.5의 샘플은 요소의 절반을 포함하는 초기 RDD의 샘플을 제공합니다). 시드는 난수 생성기 시드입니다. 테스트에서 동일한 시드를 하드 코딩하여 테스트에서 항상 동일한 결과를 얻을 수 있기를 원할 수 있기 때문에 중요합니다.하지만 뚜렷한 코드에서는 현재 시간 (밀리 초) 또는 양호한 엔트로피 소스의 임의의 숫자로 바꿉니다 .

대체 샘플링은 Google 검색입니다. https://www.ma.utexas.edu/users/parker/sampling/repl.htm. 간단히 말해, 대체 샘플링을하는 경우 샘플에서 동일한 요소를 두 번 가져올 수 있으며 교체가 없으면 한 번만 가져올 수 있습니다. 따라서 RDD에 [Bob, Alice and Carol]이 있다면 "대체"샘플은 [Alice, Alice] 일 수 있지만 대체 샘플이 없으면 중복 샘플을 사용할 수 없습니다.

+0

자세한 설명을 주셔서 감사합니다. – SPram

+0

에서 질문에 완전히 답한 경우 왼쪽의 체크 표시를 클릭하여 답을 수락합니다. –