2011-01-05 5 views

답변

4

가장 잘 맞는 것은 가장 편안한 작업입니다.

1

작업을 수행하는 데 올바른 도구를 사용하는 한 실제로는 중요하지 않습니다.

응용 프로그램을 배포하는 위치 (웹 대 데스크톱), 새로운 기술/언어를 배우는 데 드는 시간, RSS 및/또는 XML 및/또는 HTML을 구문 분석하기위한 라이브러리의 가용성을 고려해야합니다. 당신이 지명 한 3 개의 언어는 모두 좋은 후보자입니다.

0

RSS 파일은 인터넷을 통해 얻은 형식이 지정된 XML입니다. 언어로 필요한 것은 HTTP 요청을 할 수 있고 XML을 구문 분석 할 수있는 방법이 있다는 것입니다.

0

프레임 워크 코드는 무엇이든 사용할 수 있지만 XSL 변환 (또는 XPath 쿼리)을 사용하여 XML을 더 맛좋은 형식으로 가져 오는 것이 좋습니다. Espec. 데이터의 작은 부분 집합 또는 개별 값을 찾고 있다면

소스 데이터가 처음에 기계 분석 될 예정이라면 거의 "긁어 모으지 않습니다". :)

0

특정 기술이 강하고 사안 (또는 기타 요인)이있는 경우 모든 기술을 보유한 기술로 이동하십시오.

이것이 사실이 아니라면, 당신이 착수하고있는 프로젝트의 요구 사항에 해당되며, 또한 새로운 기술을 배우고 싶거나 배울 수있는 경우에 해당됩니다.

PHP는 가장 자연스럽게 웹 기반 기술이며 PHP가 지원하는 웹 스크래핑의 복잡성을 깊이 파고들뿐만 아니라 빠른 결과를 얻으려면 Simple HTML DOM Parser과 같은 라이브러리를 사용할 수 있습니다 (XML도 지원함).

자바는 Web Harvest이라는 좋은 프로젝트를 가지고 있습니다. 과거에 좋은 결과를 얻었습니다 (비표준 XML 구문을 배우기는했지만 xslt와 비슷합니다). 일단 시스템이 웹 스크래핑을 설정할 수있게되면 쉽게 수정할 수 있습니다.

Perl은 regex (Java와 특히 PHP가 정규식으로 작업 할 때 약간 지저분해질 수 있습니다)와 정규식에 관해서 가장 강력합니다. 정규식은 정보로 무엇을하고 싶은지에 따라 달라집니다. reasnoble 옵션입니다.

0

자주 실행해야하는 서버 응용 프로그램을 작성하고 많은 사이트에서 콘텐츠를 집계하는 경우 성능이 중요한 기준이되어야합니다. 이것은 많은 양의 데이터를 신속하게 처리 할 수있는 언어를 의미합니다.

가끔씩 실행하고 많은 페이지에서 데이터 비트를 추출하기 만하면 특수 언어를 고려할 수 있습니다. 제품 TestPlan은 RSS 컨텐츠를 신속하게 포착하고 간단한 방식으로 노출시킬 수있는 매우 간단한 언어를 제공합니다.

중요한 스크래핑 프로젝트에서 사용했습니다. 놀랍도록 빠르지는 않지만 스크립트는 유지하기가 매우 쉽습니다.

관련 문제