위키피디아 기사 사이의 경로를 찾기 위해 파이썬 웹 크롤러를 작성하고 있습니다.위키 피 디아 관련 기사 사이의 최단 경로 찾기
저는 시작 문서와 목표 문서가 있으며 그 사이에 짧은 경로를 찾으려고합니다.
지금 당장은 기본적으로 처음부터 목표와 같은 몇 가지 코드로 폭 넓은 검색을하고 있습니다.
for link in to_crawl:
links = get_all_links(source(link), crawled)
if goal in links:
return path+[link]+[goal]
crawled.append(link)
to_crawl.append(links)
그들은 단지 몇도이 떨어져있는 경우가 다른 하나 개의 기사에서지고,하지만 난했다 경로를 추적 할 수있는 방법이 필요하다.
웹 서버를 해머하는 대신 [데이터베이스 복사본] (http://en.wikipedia.org/wiki/Wikipedia:Database_download)을 다운로드하십시오. –