2013-10-03 4 views
1

나는 치료법과 정규 표현식을 처음 사용하지만 연구 후에 링크를 추출하기위한 최선의 해결책 인 것처럼 보인다. 특정 상태 약어 만 포함하는 시작 URL의 링크를 따라 가려고하지만, 내가 가지고있는 문제는 약어가 포함 된 URL이 서로 다른 길이와 앞뒤 문자가 다른 것과 내 삶에 맞지 않는다는 것입니다. 내가 원하는 링크를 따라 치료를 공급하는 올바른 정규식을 알아낼 수 없습니다. 이것에 대한 어떤 도움도 크게 감사 할 것입니다.정규 표현식과 일치하는 링크를 따라가는 치료

링크이

/813rents-Inc_Tampa_FL__148254837 
/A-Amp-M-Realty_Riverview_FL_92361_037984837 
/A-Altieri_Tampa_FL_1257391_877954837 
+0

우리가 어떻게 뜻을 그것이 어떻게 보이는지 모른다면 도움을 받으십시오. – Darka

+0

그래서 'FL'과 일치하고 숫자로 끝나는 링크를 따르고 싶습니까? 아니면 그 공통 패턴은 무엇입니까? – Birei

+0

나는 FL – lance0821

답변

1

과 같이 예제를 포기하지 않을 당신은 CrawlSpider에서 서브 클래스와 정규 표현식 받아 SgmlLinkExtractor에서 allow 옵션을 사용할 수 있습니다 죄송합니다 :

rules = (
    Rule(SgmlLinkExtractor(allow=(r'_FL_'), follow=True), 
    Rule(SgmlLinkExtractor(allow=(r'...'), callback='parse_item'). 
) 

def parse_item(self, response): 
    ... 
+0

과 일치하는 모든 링크를 따라 가려고합니다. 정말 고마워요. 정규 표현식과 Scenting indentation 규칙에 익숙하지 않기 때문에 (때로는 오해의 소지가있는 오류를 줄 수도 있습니다.) 다른 잘못된 것을하고 있다고 가정 할 때 당신의 제안을 시도해 보았습니다. – lance0821

관련 문제