2011-01-16 9 views
1

페이지의 CSS를 잡을 수있는 웹 크롤러를 찾고 있습니다. 나는 다른 멋진 크롤링 능력을 필요로하지 않습니다.자바 CSS 크롤러

저는 Xapian, Nutch 및 Heritrix를 통해 자신의 길을 만들고자합니다. 그것들은 모두 조금 복잡해 보입니다. 누구든지 어떤 경험이나 권장 사항이 있으면 듣고 싶습니다. 위의 플랫폼 중 하나에 대한 액세스 가능한 자습서도 환영합니다.

David

답변

0

당신이 옳습니다. 사용하지 마십시오. 너무 무거워요.

사용 : Crawler4j

간단한 크롤러에 대한 현장 자습서를 따르십시오.

는 당신이 필요로하는 유일한 변화는 MyCrawler.java에 다음과 같이 방문() 메소드의 필터 패턴 에서 제거 "CSS는"간단한 조건을 넣어 : 그것 뿐이다

if (url.contains(".css")) { 
    // do what you need with it 
} 

- 당신은 좋다!

0

일반 HTTP 클라이언트와 간단한 정규식을 사용하는 것이 좋습니다. 응답을 파일, 데이터베이스 또는 자신의 아카이브에 저장할 수 있습니다 (Heritrix 참조).

가중치가 많은 크롤러 대신 물건을 간단하게 유지합니다. 도메인 당 CSS가 거의 없으므로 도메인 내에서 복잡한 URL을 무시해도 안전합니다.

건배!