웹 사이트에서 URL 목록을 크롤링했습니다. 이 URL을 그룹으로 묶고 싶습니다. 그런 다음이 사이트의 사이트 맵을 생성 할 수 있습니다. 비슷한 URL로 이동해야합니다.패턴별로 URL 목록을 분할하는 방법은 무엇입니까?
IN [1]: http://www.example.org/s/daily/2013-12-09/1392994518.html
OUT[1]: http://www.example.org/s/daily/${date:%Y-%m-%d}/${date:%s}.html
IN [2]: http://www.example.org/torvalds/linux/commit/3bd7bf1f0fe14f591c089ae61bbfa9bd356f178a
OUT[2]: http://www.example.org/torvalds/linux/commit/${sha1}
의견이 있으십니까? 내가 사용할 수있는 소프트웨어 패키지가 있습니까?
패턴이 미리 정의 된 경우 정규 표현식을 사용할 수 있습니다. 그렇지 않으면 유사성에 대한보다 엄격한 정의를 제공해야합니다. – Emre