2014-01-14 5 views
0

URL을 거쳐야하는 클라이언트가 많아서 페이지에서 콘텐츠를 얻을 수 있습니다. 이 콘텐츠는 페이지 내의 다른 태그에 있습니다.URL에서 콘텐츠를 가져 오는 자동화 된 프로세스

나는 이것을 수행하기 위해 자동화 된 서비스를 만들고 싶다. 자동화 된 프로세스가 각 페이지를로드하고 특정 html 태그에서 컨텐트를 가져온 다음 html이 올바른지 확인하기 위해이 컨텐트를 처리해야합니다.

가능한 경우 하나의 XML 또는 JSON 파일을 생성하고 싶지만 페이지 당 XML 또는 JSON 파일을 사용할 수 있습니다.

이 작업을 수행하는 가장 좋은 방법은 무엇이며, 가능한 한 Mac 또는 Linux 서버에서 실행할 수있는 것이 좋습니다.

URL 목록은 외부 사이트에 있습니다.

이미 사용할 수있는 무언가가 있습니까? 아니면 나를 도와 줄 수있는 예가 있습니까?

감사

+0

파이썬의 [BeautifulSoup] (http://www.crummy.com/software/BeautifulSoup/)는 HTML 구문 분석에 능숙합니다. [urllib.request] (http://docs.python.org/3/library/urllib.request.html)는 물건을 가져 오는 것이 좋습니다. 두 가지를 결합하면 필요한 도구를 얻을 수 있습니다. – mojo

답변

0

이것은 BeautifulSoup, IMHO의 완벽한 응용 프로그램입니다. 비슷한 과정에 tutorial이 있습니다. 그것은 확실히 출발점입니다.

0

Scrapy은 거미와 긁기를위한 훌륭한 프레임 워크입니다.

his answer에 팀 요리사가 언급 한 Requests + Beautiful Soup 또는 LXML 자습서를 기반으로하는 학습 오버 헤드가 조금 더 필요하다는 것을 알게 될 것입니다. 그러나 많은 스크래핑/파싱 로직을 작성하고 있다면 코드베이스 (읽기 쉽고 유지 보수가 용이 한) 코드베이스로 안내해야합니다.

일회용으로 실행하는 경우 Beautiful Soup + Requests와 함께 갈 것입니다. 그것이 재사용되고, 연장되고, 시간이 지남에 따라 유지된다면 치료가 나의 선택 일 것입니다.

관련 문제