웹 스크래핑에 "완벽한"언어가 있습니까?

저는 웹 스크래핑 (Ruby, PHP, Python)에 3 가지 언어를 사용했습니다. 솔직히 그 중 아무 것도 그 작업을 완벽하게 보이지 않습니다.웹 스크래핑에 "완벽한"언어가 있습니까?

Ruby는 뛰어난 기계 및 XML 구문 분석 라이브러리를 가지고 있지만 스프레드 시트 지원은 매우 열악합니다.

PHP는 뛰어난 스프레드 시트 및 HTML 구문 분석 라이브러리를 가지고 있지만 WWW : Mechanize와 동등한 것은 아닙니다.

파이썬에는 매우 열악한 Mechanize 라이브러리가 있습니다. 나는 그것에 많은 문제가 있었지만 여전히 해결할 수 없었다. 스프레드 시트 라이브러리는 XLSX 파일을 만들 수 없기 때문에 어느 정도 괜찮습니다.

웹 스크랩에 이상적인 것이 있습니까?

추신 : Windows 플랫폼에서 작업 중입니다.

2010-08-12 Shubham

Excel 형식 지원 –

나는, 그러나, 당신은 .NET을 시도 꽤 주관적이되는 '완벽한'생각 ... 긁어 웹에 일종의 직교? 필자는 XML 파싱 라이브러리가 상당히 강력하다고 생각하며 스프레드 시트 지원을 위해 MSOffice와 쉽게 연결할 수 있습니다. – Tommy

@ 토미 : Mechanize와 동등한 제품이 있습니까? WebBrowserControl과 함께 사용했지만 비효율적 인 것으로 나타났습니다. – Shubham

확인 파이썬 + 공세, 그것은 꽤 좋은 :

2010-08-12 13:53:54 juanjux

나는 이것을 항상 사용합니다! – JudoWill

왜뿐만 아니라 XML Spreadsheet 형식을 사용할 수 있습니까? 그것은 매우 간단하게 생성 할 수 있으며 모든 유형의 클래스 기반 시스템을 사용하면 쉽습니다.

또한 Python의 경우 구문 분석을 위해 BeautifulSoup을 시도 했습니까? Urllib + BeautifulSoup는 매우 강력한 콤보를 만듭니다.

2010-08-12 14:43:42

웹 스크래핑을위한 Python + Beautiful Soup 그리고 Windows를 사용하기 때문에 Excel 자동화를 위해 win32com을 사용하여 xlsx 파일을 생성 할 수 있습니다.

2010-08-12 14:56:34 Martin

짧은 대답은 아니오입니다.

문제는 HTML이 다양한 형식의 서식이며 최신 변형 만 일관되고 (XML 기반) 문제라는 것입니다. PHP를 사용한다면 DOM 파서를 사용하는 것이 좋습니다. 이렇게하면 잘 구성된 XML로 적합하지 않은 많은 HTML을 처리 할 수 있습니다. - 게시물의 행간 읽기

당신은 것 같다 : 일관성있는 기계 판독 형식으로 데이터를 구문 분석) 복잡한 상호 작용 관리

2에 대한 요구 사항과 웹 콘텐츠를 캡처

1) 확실히 3 별도의 문제입니다 스프레드 시트

에 데이터를 기록

3 ) - 아무도 언어가 작업에 가장 적합한 도구를 사용하지 왜 모든 3 개 요구 사항을 충족하지 않는 경우 단지는 ABO 걱정 적절한 중간 포맷/데이터를위한 매체?

2010-08-12 16:41:27 symcbean

답변