2014-10-16 4 views
0

웹 사이트에서 URL 목록을 크롤링했습니다. 이 URL을 그룹으로 묶고 싶습니다. 그런 다음이 사이트의 사이트 맵을 생성 할 수 있습니다. 비슷한 URL로 이동해야합니다.패턴별로 URL 목록을 분할하는 방법은 무엇입니까?

IN [1]: http://www.example.org/s/daily/2013-12-09/1392994518.html 
OUT[1]: http://www.example.org/s/daily/${date:%Y-%m-%d}/${date:%s}.html 

IN [2]: http://www.example.org/torvalds/linux/commit/3bd7bf1f0fe14f591c089ae61bbfa9bd356f178a 
OUT[2]: http://www.example.org/torvalds/linux/commit/${sha1} 

의견이 있으십니까? 내가 사용할 수있는 소프트웨어 패키지가 있습니까?

+0

패턴이 미리 정의 된 경우 정규 표현식을 사용할 수 있습니다. 그렇지 않으면 유사성에 대한보다 엄격한 정의를 제공해야합니다. – Emre

답변

1

높은 유입 빈도가있는 URL을 찾고 싶습니다. 이들을 확인한 후에는 흐름이 적은 (또는없는) 흐름을 사이트의 다른 페이지로 제거하십시오. 이 최신 그룹은 사용 약관, 개인 정보 취급 방침과 같은 것입니다.

전자는 사이트의 구분에 대한 앵커 포인트입니다. 앵커 페이지로 이동하여 해당 줄의 텍스트를 본부의 이름으로 사용하십시오. 그런 다음 사이트의 다른 페이지로 앵커 밖으로 흐르는 URL을 확인하십시오. 다른 앵커 포인트로 이동하지 않으면이 앵커 포인트에 속합니다.

+0

고맙습니다. 이 문제를 해결할 알고리즘이 있습니까? 어떤 책/기사/블로그를 추천하십니까? – kev

관련 문제