내가 임의의 URL을 감안할 때 DB를내가
url data
^(.*)google.com/search foobar
^(.*)google.com/alerts barfoo
^(.*)blah.com/foo/(.*) foofoo
... 100's more
에 URL을 다음과 같은 설정을 말해봐 들어오는 URL에 대해 일치 될 수있는 URL의 정규 표현식에 (파이썬)의 집합을 포함하는 DB를 설계 얼마나 야생, 나는 그 URL이 기존의 URL 집합에 속하는지 확인하고 을 확인하고 해당 데이터 필드를 얻으십시오.
내 질문은 :
- 내가 DB를 설계 할 어떻게 할
- 장고 않는 각 정규식 통해 반복 어쩌면 URL을 1000 년대는 이것을이 주어진 일치 를 확인하여 urlresolution 이것을 접근하는 가장 좋은 방법은?
- 내가 볼 수있는 기존 구현이 있습니까?
나는 그들을 사용한 적이 없지만 이것은 블룸 필터의 잠재적 인 사용처럼 보입니다. 정규식을 사용할 수 없지만 현재 url 구문이 매우 큰 집합과 일치하는 경우 빠른 검사를 받게됩니다. http://en.wikipedia.org/wiki/Bloom_filter 은 파이썬에서 구현되었습니다. http://www.coolsnap.net/kevin/?p=13 – Paul
두 개 이상의 정규식이 URL과 일치하면 어떻게됩니까? 그것은 가능합니다. –
+1 블룸 필터 참조. –