저는 웹 스크래핑 (Ruby, PHP, Python)에 3 가지 언어를 사용했습니다. 솔직히 그 중 아무 것도 그 작업을 완벽하게 보이지 않습니다.웹 스크래핑에 "완벽한"언어가 있습니까?
Ruby는 뛰어난 기계 및 XML 구문 분석 라이브러리를 가지고 있지만 스프레드 시트 지원은 매우 열악합니다.
PHP는 뛰어난 스프레드 시트 및 HTML 구문 분석 라이브러리를 가지고 있지만 WWW : Mechanize와 동등한 것은 아닙니다.
파이썬에는 매우 열악한 Mechanize 라이브러리가 있습니다. 나는 그것에 많은 문제가 있었지만 여전히 해결할 수 없었다. 스프레드 시트 라이브러리는 XLSX 파일을 만들 수 없기 때문에 어느 정도 괜찮습니다.
웹 스크랩에 이상적인 것이 있습니까?
추신 : Windows 플랫폼에서 작업 중입니다.
Excel 형식 지원 –
나는, 그러나, 당신은 .NET을 시도 꽤 주관적이되는 '완벽한'생각 ... 긁어 웹에 일종의 직교? 필자는 XML 파싱 라이브러리가 상당히 강력하다고 생각하며 스프레드 시트 지원을 위해 MSOffice와 쉽게 연결할 수 있습니다. – Tommy
@ 토미 : Mechanize와 동등한 제품이 있습니까? WebBrowserControl과 함께 사용했지만 비효율적 인 것으로 나타났습니다. – Shubham