mongoDB 커넥터를 사용하여 SPARK에서 파이썬 파일을 실행하려고합니다. 파이썬 파일은 mongoDB에서 데이터를 얻기 위해 쿼리를 수행하고 SPARK의 맵 작업으로이 데이터를 처리합니다.socket.timeout mongoDB pyspark
맵 작업이 실행되는 동안 실행에 "socket.timeout : timed out"오류 메시지가 표시되지 않습니다.
시간 초과, 나는 시도 1GB의 파일과 동일하며 동일한 문제이지만 400MB의 작은 파일로도 작동합니다.역 추적 (마지막으로 가장 최근 통화) : "/home/ana/computational_tools_for_big_data/project/review_analysis.py" 라인 (27) 파일, bad_reviews = reviews_1.rdd에서 그게 내가 얻을 출력됩니다. map (lambda : r.text) .collect() 파일 "/usr/local/spark/python/lib/pyspark.zip/pyspark/rdd.py", 줄 777, 수집 파일 "/ usr/local /spark/python/lib/pyspark.zip/pyspark/rdd.py ", 142 줄, _load_from_socket 파일"/usr/local/spark/python/lib/pyspark.zip/pyspark/serializers.py ", 줄 139, load_stream 파일 "/usr/local/spark/python/lib/pyspark.zip/pyspark/serializers.py", 라인 156, _read_with_length 파일 "/usr/local/spark/lib/pyspark.zip/pyspark/serializers.py", 543, read_int 파일 "/usr/lib/python2.7/socket.py" "라인 384, 에 데이터 = self._sock.recv (왼쪽) socket.timeout 읽기 : 나는 그것을 조회하고 파일이 매우 큰 2.3GB이기 때문에 나는이 문제를 얻을
타임 아웃이나 작동하도록 변경하는 것이 가능합니까? 많은 양의 데이터를 더 빠르게 처리 할 수있는 다른 방법이 있습니까?