블룸버그 웹 사이트의 디즈니 관련 페이지를 크롤링하고 싶습니다. URL을 추적 패턴은 그래서정규식을 사용하여 URL을 추출하는 규칙을 설정하는 방법은 무엇입니까?
"http://bloomberg.com/news/2013-07-08/disney-welcometohomepageofdisney"
로, 난에 대한 규칙 아래에 쓴 것이
rules = [
Rule(SgmlLinkExtractor(allow=('/news/*/disney*',)), follow=True),
]
하지만 내가 원하는대로 위의 규칙이 작동하지 않습니다와 나는 크롤링 페이지 출력 디즈니와 관련이없는 무엇입니까 . 이 규칙을 수정하는 데 도움주세요.
/news/[^/]+/disney.*
\/news\/[^\/]+\/disney.*
당신이 다음 /하지만 아무것도 찾을 것입니다 이런 식으로 같은 외모를 탈출 :
는 * 당신은 여전히 필요 아무것도 아닌 내 연구에서 나타납니다 * 일반 정규식처럼, 난 드리겠습니다 내가 틀렸다면 알려주세요 당신을위한 정규 표현식을 변경하십시오. – abc123