2015-01-06 2 views
-1

페이지를 자동으로 가로 지르는 API 또는 프로그램을 검색 중입니다. 예 : Amazon과 같은 사이트의 고객 리뷰가 여러 페이지에 있습니다. 프로그램이 자동으로 모든 페이지를 탐색하고 주석을 Excel 시트에 저장하려면 어떻게해야합니까?다른 페이지를 통해 서핑 할 API를 원합니다.

도움이 될 것입니다. 미리 감사드립니다.

+2

당신은 http://en.wikipedia.org/wiki/Web_crawler 찾고 계십니까? – xyz

답변

0

웹 크롤러를 찾고있는 것처럼 보입니다. 예 :

Java : Crawler4j는 웹 크롤링을위한 간단한 인터페이스를 제공하는 오픈 소스 Java 크롤러입니다. 5 분 안에 멀티 스레드 웹 크롤러를 설정할 수 있습니다!

https://code.google.com/p/crawler4j/

Nodejs : Simplecrawler은 가능한 한 유연하고 강력한하면서, 크롤링 웹 사이트에 대한 가장 기본적인 가능한 API를 제공하도록 설계되었습니다.

https://github.com/cgiffard/node-simplecrawler

C#을 ABOT 속도와 유연성을 위해 만들어진 오픈 소스 C# 웹 크롤러입니다. 저수준 배관 (멀티 스레딩, http 요청, 스케줄링, 링크 파싱 등)을 처리합니다. 페이지 데이터를 처리하기위한 이벤트에 등록하면됩니다. 또한 자체 인터페이스 구현을 플러그인하여 크롤링 프로세스를 완벽하게 제어 할 수 있습니다.

https://code.google.com/p/abot/

+0

감사합니다 Xkill01. 나는 crawler4j가 내 문제를 해결해야한다고 생각한다. :) –

1

의견에서 언급했듯이 웹 크롤러를 찾고 있습니다.

public class MyCrawler extends WebCrawler { 

    // Decide if you want to go to a webpage based on the URL 
    @Override 
    public boolean shouldVisit(WebURL url) { 
      String href = url.getURL().toLowerCase(); 
      return true; 
    } 

    @Override 
    public void visit(Page page) {   
      String url = page.getWebURL().getURL(); 
      System.out.println("URL: " + url); 

      if (page.getParseData() instanceof HtmlParseData) { 
        HtmlParseData htmlParseData = (HtmlParseData) page.getParseData(); 
        String text = htmlParseData.getText(); 
        String html = htmlParseData.getHtml(); 
        List<WebURL> links = htmlParseData.getOutgoingUrls(); 
      } 
    } 
} 
+0

플린 감사합니다. 나는 crawler4j가 내 문제를 해결해야한다고 생각한다. :) –

0

당신은 또한 주로를 위해 사용되는 Selenium WebDriver을 사용할 수 있습니다 : 자바 태그 감안할 때, 당신은 웹 페이지에 일을 한 후 클래스를 확장, 그리고 간단 사용 crawler4j

보고 할 수 있습니다 기능 테스트는 가능하지만 웹 페이지 크롤링에도 사용할 수 있습니다. 좋은 시작은 순수한 자바 구현 인 HTMLUnitDriver page입니다. (크롤링을 수행하기 위해 외부 웹 브라우저를 사용하지 않는 것입니다)

관련 문제