2011-10-24 5 views
1

커스텀 콘텐트를 제공하기 위해 사이트를 거미하는 기능을 가진 이메일 회사와 함께 일하고 있습니다. 나는 거미가 내가 제공 한 정규식 패턴을 기반으로 URL을 무시하도록하는 능력을 가지고있다.URL을 제외하기위한 정규식

이 시스템의 경우 패턴은 "/"로 시작하고 끝납니다. 내가 할 노력하고있어

http://www.website.com/2011/10를 무시하지만 http://www.website.com/2011/10/title-of-page.html

나는 그것이 슬래시하지만 운이 없기 때문에 패턴이 아래 일 것이라고 생각했을 것이다

수 있습니다.

아이디어가 있으십니까?

/http:\/\/www\.website\.com\/[0-9][0-9][0-9][0-9]\/[0-9][0-9]/ 

답변

1

귀하의 정규식이 URL의 부분 일치 구분 기호 수 있습니다, 다음 추가 word boundary 도움이 될

/http:\/\/www\.website\.com\/[0-9]{4}\/[0-9][0-9](?!\/)/ 

당신은 또한 http://www.website.com/2011/100에서 같은 다른 부분 일치를 방지하려면 : 그래서 당신은 슬래시 그것을 따라 할 수 있도록하지 그것을 알려줄 필요가

/http:\/\/www\.website\.com\/[0-9]{4}\/[0-9][0-9]\b(?!\/)/ 
1

그것은 정규 표현식 엔진에 따라 달라집니다하지만 당신은 아마 중 하나를 사용 $ (URL이 사전에 tokenised 경우) 또는 공백에 일치하고

관련 문제