2014-05-17 4 views
0

웹 사이트가 있지만 해당 카테고리 페이지에서 javascript를 통해로드 된 페이지 이후에 생성 된 제품 목록이 있습니다. 그리고 내 크롤러는 그것을 간다 어떤 제품을 찾을 수 없습니다. 어떻게 그 문제를 해결할 수 있습니까?크롤러 4j 크롤링 jquery 라이브 콘텐츠

 CrawlConfig config = new CrawlConfig(); 
     config.setCrawlStorageFolder(rootFolder); 
     config.setMaxPagesToFetch(100000000); 
     config.setMaxDepthOfCrawling(-1); 
     config.setPolitenessDelay(1); 
     config.setUserAgentString("Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/33.0.1750.146 Safari/537.36"); 
     //config.setResumableCrawling(true); 
     config.setIncludeHttpsPages(true); 



     PageFetcher pageFetcher = new PageFetcher(config); 
     RobotstxtConfig robotstxtConfig = new RobotstxtConfig(); 
     robotstxtConfig.setEnabled(false); 
     RobotstxtServer robotstxtServer = new RobotstxtServer(robotstxtConfig, pageFetcher); 
     CrawlController controller = new CrawlController(config, pageFetcher, robotstxtServer); 



     controller.addSeed(siteDomain); 
     for(int i = 4; i<=14; i++) 
     { 
      if(i < args.length) 
     { 
      controller.addSeed(args[i]); 
     } 
     } 



     controller.start(Crawling.class, numberOfCrawlers); 


     List<Object> crawlersLocalData = controller.getCrawlersLocalData(); 

답변

0

불행히도 crawler4j는 정적 컨텐츠 만 지원합니다. javascript 및 ajax 지원의 경우 crawljax 또는 nutch와 같은 크롤러를 셀레늄과 함께 사용하십시오.