2011-07-29 4 views
0

나는 웹 페이지를 불러올 스크립트를 작성하려고하고있다. (http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?mode = 트리 & ID는 = 7742 & LVL = 3 & 린은 & 킵 = 1 & srchmode = 1 & 잠금 해제)을 스캔 한 다음 각 중첩 된 분류 학적 그룹 내에서 주문, 가족, 속, 종을 꺼내 F =. 그러나, 나는 단지 척추 동물 (전체 웹 사이트의 아주 작은 부분)을 원하지만, 다양한 척추 분류군과 관련된 URL은 식별 할 수있는 패턴 (즉 순차적)이 아니다. 합리적인 방법이 있습니까? 나는이 목표를 성취하기위한 여러 가지 방법을 공식화하려고 많은 문제를 겪어왔다.파이썬이 mutiple URL을 호출하고 그들로부터 데이터를 가져옴

+0

이라고 ** 웹 스크래핑 ** 여기에는 많은 사전 Q & A가 있습니다 (그들 중 500 명만이 파이썬으로 태그되었습니다). Python에서 _twill_은 _mechanize_ (자동화의 경우) 위에 위치하는 유용성 계층입니다. 실제 스크래핑에 대해서는 _BeautifulSoup_입니다. – smci

+0

[twill] (http://twill.idyll.org/commands.html)은 특별히 다음 링크를 일반적인 기계화보다 쉽게 ​​만듭니다. 특히 [follow] (http://twill.idyll.org/commands.html) 명령이 작동합니다. 링크 제목 (URL이 아닌). 그래도 문제가 해결되지 않으면이 링크의 샘플 HTML 스 니펫을 보여주십시오. – smci

답변

0

정확히 무엇을하고 싶은지는 분명하지 않지만, 내가 이해할 수 있도록 페이지의 링크를 찾는 일종의 크롤러를 만들어야합니다. 사이트를 분류하고 분류 할 수 있습니까?

그렇다면, 쉽게 등 등, 양식을 제출, 추출 및 링크를 따라 웹 브라우저를 에뮬레이션 할 수 있다는 점, mechanize을 위해 이동하고 사이트를 따라 이동

관련 문제