나는 웹 페이지를 불러올 스크립트를 작성하려고하고있다. (http://www.ncbi.nlm.nih.gov/Taxonomy/Browser/wwwtax.cgi?mode = 트리 & ID는 = 7742 & LVL = 3 & 린은 & 킵 = 1 & srchmode = 1 & 잠금 해제)을 스캔 한 다음 각 중첩 된 분류 학적 그룹 내에서 주문, 가족, 속, 종을 꺼내 F =. 그러나, 나는 단지 척추 동물 (전체 웹 사이트의 아주 작은 부분)을 원하지만, 다양한 척추 분류군과 관련된 URL은 식별 할 수있는 패턴 (즉 순차적)이 아니다. 합리적인 방법이 있습니까? 나는이 목표를 성취하기위한 여러 가지 방법을 공식화하려고 많은 문제를 겪어왔다.파이썬이 mutiple URL을 호출하고 그들로부터 데이터를 가져옴
0
A
답변
0
정확히 무엇을하고 싶은지는 분명하지 않지만, 내가 이해할 수 있도록 페이지의 링크를 찾는 일종의 크롤러를 만들어야합니다. 사이트를 분류하고 분류 할 수 있습니까?
그렇다면, 쉽게 등 등, 양식을 제출, 추출 및 링크를 따라 웹 브라우저를 에뮬레이션 할 수 있다는 점, mechanize을 위해 이동하고 사이트를 따라 이동
관련 문제
- 1. 파이썬이
- 2. URL을 호출하고 자바 스크립트에서 응답을 얻는 방법
- 3. 파이썬이 MySQL에 바이너리 데이터를 삽입 및 검색
- 4. DOS 스크립트 도움말 (파일에서 특정 데이터를 가져옴)
- 5. ajax onclick 명령으로 오래된 데이터를 가져옴
- 6. MySQL이 중복 ID/데이터를 가진 다른 테이블에서 데이터를 가져옴
- 7. rails 데이터베이스에서 데이터를 호출하고 표시하는 그래프를 구현합니다.
- 8. 클래스에서 변수를 동적으로 가져옴
- 9. 파이썬이 파일에 쓰기
- 10. 파일 청크를 청크로 읽을 때 파이썬이 모든 데이터를 반환하지 않음
- 11. SQL Server 쿼리가 BETWEEN 필터로 일치하지 않는 데이터를 가져옴
- 12. 파이썬이 목록을 어떻게 정렬합니까?
- 13. . 닷넷에서 파이썬이 꼬인 동등한
- 14. 파이썬이 문자열 조작을
- 15. 어떻게 파이썬이 설정을 기억하게합니까?
- 16. 라이브러리가없는 JavaScript에서 형제를 가져옴
- 17. .event 함수로 jQuery를 가져옴
- 18. linux - 프로세스 PID를 가져옴
- 19. CreateProcess가 문자열에서 stdin을 가져옴
- 20. PHP PDO가 null을 가져옴
- 21. mutiple UIImageView에서 팬 제스처를 사용하는 방법
- 22. perl 스크립트에서 mutiple shell 명령 실행
- 23. Boost.Interprocess : 다른 프로세스에있는 클래스에서 함수를 호출하고 데이터를 보내는 방법은 무엇입니까?
- 24. jQuery를하고 내가 ASMX를 호출하고 일부 데이터를 반환하는 jQuery를 사용하고 콜백
- 25. 파이썬이 DLL 함께 작동하도록 - 구조 OUT 인수
- 26. inputmethodservice에서 활동을 호출하고 응답을받는 방법
- 27. py2exe를 사용하려고하는데 파이썬이 인식되지 않습니다
- 28. 파이썬이 충돌 할 것으로 생각합니까?
- 29. 콘솔 창 위에 파이썬이 있습니까?
- 30. 양식 입력이 1 단어를 가져옴
이라고 ** 웹 스크래핑 ** 여기에는 많은 사전 Q & A가 있습니다 (그들 중 500 명만이 파이썬으로 태그되었습니다). Python에서 _twill_은 _mechanize_ (자동화의 경우) 위에 위치하는 유용성 계층입니다. 실제 스크래핑에 대해서는 _BeautifulSoup_입니다. – smci
[twill] (http://twill.idyll.org/commands.html)은 특별히 다음 링크를 일반적인 기계화보다 쉽게 만듭니다. 특히 [follow] (http://twill.idyll.org/commands.html) 명령이 작동합니다. 링크 제목 (URL이 아닌). 그래도 문제가 해결되지 않으면이 링크의 샘플 HTML 스 니펫을 보여주십시오. – smci