URL을 거쳐야하는 클라이언트가 많아서 페이지에서 콘텐츠를 얻을 수 있습니다. 이 콘텐츠는 페이지 내의 다른 태그에 있습니다.URL에서 콘텐츠를 가져 오는 자동화 된 프로세스
나는 이것을 수행하기 위해 자동화 된 서비스를 만들고 싶다. 자동화 된 프로세스가 각 페이지를로드하고 특정 html 태그에서 컨텐트를 가져온 다음 html이 올바른지 확인하기 위해이 컨텐트를 처리해야합니다.
가능한 경우 하나의 XML 또는 JSON 파일을 생성하고 싶지만 페이지 당 XML 또는 JSON 파일을 사용할 수 있습니다.
이 작업을 수행하는 가장 좋은 방법은 무엇이며, 가능한 한 Mac 또는 Linux 서버에서 실행할 수있는 것이 좋습니다.
URL 목록은 외부 사이트에 있습니다.
이미 사용할 수있는 무언가가 있습니까? 아니면 나를 도와 줄 수있는 예가 있습니까?
감사
파이썬의 [BeautifulSoup] (http://www.crummy.com/software/BeautifulSoup/)는 HTML 구문 분석에 능숙합니다. [urllib.request] (http://docs.python.org/3/library/urllib.request.html)는 물건을 가져 오는 것이 좋습니다. 두 가지를 결합하면 필요한 도구를 얻을 수 있습니다. – mojo