2016-11-03 4 views
0

파이썬 스파크를 사용하고 있으며 각 파티션에서 http에 액세스하려고했습니다. 그러나 그것은 항상 샘플 다음으로, 거기에 붙어 :python spark가 실행 프로그램의 http 서버에 액세스 할 수 없습니다.

sc = SparkContext(appName="Fetch Http") 
lines = sc.textFile("urls.txt", 10) 
lines.map(fetch).saveAsTextFile("hdfs://node1/pages") 

def fetch(url) 
    http = urllib3.PoolManager() 
    postResponse = http.request('POST',url,headers=JSON) 
    jData = json.loads(postResponse.data) 
    vectorStr = contertFun(jData) 
    return vectorStr 
+0

귀하의 통제하에있는 서버입니까? 그렇지 않은 경우 무엇이 응답 할 것이며 잠재적 인 공격으로 요청을 무시하지 않을 것이라고 생각하게합니까? –

답변

1

일부 문제를 코드로 : 연결이 그냥

  • 당신이 돈을 붙어 있습니다 중지되는 경우 있도록

    • 당신은 시간 제한을 제공하지 않습니다 당신은 당신이 그것을

    오븐을 다시 사용할 수있는 연결 풀을 사용

  • 저장 아무것도 없다, 그래서 '는 t는 아무것도 반환 그것은별로 의미가 없다고 느낍니다.

  • +0

    감사합니다! 나는 모든 코드를 통과하지 못했지만 실제로는 내 게시물을 편집 한 문자열을 반환했습니다. 기본 시간 제한을 사용했으며, 기본적으로 60 초입니다. – Jack

    관련 문제