저는 코드가 저수지 표본 추출이라는 것을 알고 싶습니다. 내가 처리하고자하는 페이지 뷰 스트림이 있습니다. 한 번에 한 페이지 뷰를 처리하고 있습니다. 그러나 대부분의 페이지 뷰가 동일하므로 임의로 페이지 뷰를 선택 (한 번에 하나씩 처리)하고 싶습니다. 예를 들어, 페이지 뷰가샘플 크기 1은 저수지 샘플링을 고려합니까?
인 경우[www.example.com, www.example.com, www.example1.com, www.example3.com, ...]
한 번에 하나의 요소 만 처리합니다. 여기 내 코드가있다. 저수지 샘플링 알고리즘에 따라
import random
def __init__(self):
self.counter = 0
def processable():
self.counter += 1
return random.random() < 1.0/self.counter
코드가 의미가 없습니다. 어딘가에 '클래스'가 정의되어 있습니까? 당신은 아이템들의 흐름과 전혀 상호 작용하지 않는 것처럼 보입니다. – Blckknght
그 코드는 코드베이스의 일부일뿐입니다. 스트림과 상호 작용하는 부분을 게시합니다. – toy