data.file에 저장된 URL에서 일부 값 (추출 함수를 사용하여 얻음)을 얻으려고하고 있는데 파일에 약 3000000 개의 URL 링크가 있습니다 . 여기에 내 코드가있다bigdata의 python 코드에서 map()을 사용하여 멀티 프로세싱 작업
from multiprocessing import Pool
p = Pool(10)
revenuelist = p.map(extract, data.file)
그러나 문제는 인터넷 연결로 인해 연결 문제가 발생하면 다시 실행된다는 것입니다. 내 코드에 내결함성을 어떻게 추가합니까 (동일한 작업을 반복하지 않도록 중간 결과 저장).
작업이 URL을 가져 오는 경우 프로세스 대신 스레드를 사용할 것을 고려하십시오. – Udi