2013-05-01 2 views
0

나는 bmtc 버스 연결 네트워크의 네트워크 분석을 계획하고 있습니다 ... 그래서 버스 노선과 관련된 데이터를 수집해야합니다. 내가 아는 한 최고의 웹 사이트는 http://www.narasimhadatta.info/bmtc_query.html 입니다. "경로 별 검색"옵션에서 전체 경로 목록이 제공되고 하나를 선택할 수 있으며 "제출"을 클릭하면 자세한 경로가 표시됩니다. 이전에 데이터를 온라인으로 획득 할 때 각 항목 (이 경우 경로 번호)이 고유 한 URL로 연결된다는 사실을 깨닫고 파이썬을 사용하여 소스 페이지에서 데이터를 수집했습니다. 그러나 버스 노선과 상관없이 최종 페이지의 URL은 항상 http://www.narasimhadatta.info/cgi-bin/find.cgi 이며 경로 페이지에는 경로 세부 정보가 포함되어 있지 않습니다.다른 페이지를 크롤링하고 데이터를 수집하는 스크립트

나는 Python과 Matlab에만 익숙하다. 해당 웹 사이트에서 데이터를 수집 할 수있는 방법을 찾지 못했습니다. 뭔가를 볼 수 있다면 기술적으로 데이터를 다운로드 할 수 있어야합니다 (최소한 내가 믿는 것). 그러면 각 버스 노선 번호를 자동으로 크롤링하고 경로 세부 정보를 다운로드하는 코드로 나를 도와주십시오.

+0

[Scrapy] (https://scrapy.readthedocs.org/en/0.16/). – Blender

답변

1

내가 언급 한 URL을 보았습니다. 경로 번호 목록이있는 경우 다음 url 구조를 사용하여 데이터를 추출 할 수 있습니다.

http://www.narasimhadatta.info/cgi-bin/find.cgi?route=270S

또는

http://www.narasimhadatta.info/cgi-bin/find.cgi?route=[route 수를 나열에서] 내가 사용하는 것이

관련 문제