2012-06-21 4 views
0

알려진 URL의 특정 디렉토리에있는 모든 파일을 다운로드하고 싶습니다. 파일의 이름은 반드시 알 필요는 없지만 그 이름은 모두 공통 키워드를 포함하며 동일한 확장자 (.xml)를 갖습니다.urllib2를 사용하여 URL에서 임의의 수의 파일을 Python 2.7로 다운로드합니다. urllib2에 대한 "os.walk"와 동일합니까?

urllib2에 해당하는 "os.walk"가 있습니까? 예를 들어 디렉토리에있는 모든 파일을 걸러서 구문 분석을 위해 열 수 있습니다.

온라인에서 본 유일한 예는 디렉토리의 모든 파일 이름 목록이 포함 된 알려진 이름의 파일입니다. 나는 이것을하고 싶지 않다 ...

기타 관련 정보 : 파일은 아파치 서버에 있으며 공개적으로 액세스 할 수있다.

+0

연락처 사이트 소유자와 theyd가 데이터를 기꺼이 제공하는지 질문하십시오 – dm03514

+0

사실 내 데이터입니다. 나는 업데이트 할 때마다 디렉토리의 파일 목록을 업데이트 할 필요없이 스크립트를 자동으로 풀어 낼 수 있기를 원합니다. 아마도 어쨌든해야 할 것입니다. – user1472893

답변

1

파일 이름을 모른 채로는 불가능합니다. 모든 이름을 임의로 시도해야합니다.이 이름의 파일이 있는지 여부를 알 수있는 유일한 방법은 URL을 요청하고 응답이 있는지 확인하는 것입니다. 그러나 아파치 웹 서버가 (mod_autoindex을 가지고) 디렉토리 색인을 생성하고이를 파싱하여 파일 이름을 얻을 수있게 할 수 있습니다.

관련 문제