2013-05-03 2 views
2

나는 perl에서 wget을 사용하여 사이트의 웹 페이지를 얻고 있습니다. 저는 단지 html, htm, php, asp, aspx 파일 유형에만 관심이 있습니다. 그러나 하나 이상의 사이트에서 확장자/접미사가없는 파일 이름을 사용하여 링크를 제공했습니다. 나도 그 사람들이 필요해.접미사가없는 파일을 허용하는 wget을 얻는 방법

내 :

wget -A html,htm,php,asp,aspx 

는없는 접미사 링크를 제외하고 잘 작동합니다.

나는 정규식 문자열을 사용하지 않고 접미어 페이지를 얻으려고 시도했지만 아무 소용이 없습니다. wget은 기본 페이지 만 반환합니다. 지금까지 이러한 파일을 가져 오는 유일한 방법은 모든 파일 (이 웹 사이트에서는 끔찍한 것이 아니라 다른 웹 사이트에서는 끔찍할 수 있음)까지 열어 보는 것입니다.

접미사가없는 wget의 링크를 지정하는 정규식 또는 정규식이 있습니까?

+0

html 페이지에 관심이 있다면 --force-html을 사용해보십시오. 그렇지 않으면 빈 문자열과 일치하는^$와 같은 패턴을 사용할 수 있습니까? – Mark

답변

1

wget과 버전 1.14은 같은 --accept-regex 즉, 전체 URL에 대해 일치 인수, 뭔가를 지원하는 것 같습니다 다음과 같은 이론 연구에서해야한다 (안된) :

wget --accept-regex '/[^.]+(?:\.(?:html?|php|aspx?))?$' 

를 아니면 그냥 거부하기 쉬울 것 당신이 원하지 않는 확장 기능들?

관련 문제