2013-08-08 1 views
1

블룸버그 웹 사이트의 디즈니 관련 페이지를 크롤링하고 싶습니다. URL을 추적 패턴은 그래서정규식을 사용하여 URL을 추출하는 규칙을 설정하는 방법은 무엇입니까?

 "http://bloomberg.com/news/2013-07-08/disney-welcometohomepageofdisney" 

로, 난에 대한 규칙 아래에 쓴 것이

  rules = [ 
    Rule(SgmlLinkExtractor(allow=('/news/*/disney*',)), follow=True), 
      ] 

하지만 내가 원하는대로 위의 규칙이 작동하지 않습니다와 나는 크롤링 페이지 출력 디즈니와 관련이없는 무엇입니까 . 이 규칙을 수정하는 데 도움주세요.

/news/[^/]+/disney.* 

\/news\/[^\/]+\/disney.* 

당신이 다음 /하지만 아무것도 찾을 것입니다 이런 식으로 같은 외모를 탈출 :

+0

는 * 당신은 여전히 ​​필요 아무것도 아닌 내 연구에서 나타납니다 * 일반 정규식처럼, 난 드리겠습니다 내가 틀렸다면 알려주세요 당신을위한 정규 표현식을 변경하십시오. – abc123

답변

3

/news/* 일치 /news.

올바른 정규식은 다음과 같습니다.

/news/.*/disney 
1

당신은 가능성이 다음과 같은 정규식이 필요합니다. /의 번호 뒤에

Example here

관련 문제