2010-04-06 7 views
-1

Windows XP에서 cygwin을 통해 성공적으로 크롤링 명령을 실행할 수 있습니다. 나는 또한 바람둥이를 사용하여 웹 검색을 할 수 있습니다.크롤링하는 동안 (텍스트 만) 웹 사이트를 구문 분석하는 방법

그러나 나는 또한이

빈처럼/nutch 크롤링 -dir 크롤링하여 크롤링을 시작할 때 너무

이벤트 크롤링하는 동안 구문 분석 된 페이지를 저장하려면 -depth 3

나는 또한 저장하려면 파싱 ​​된 HTML 파일을 가져올 때 내가 위의 명령으로

nutch 시작이 기간 동안 내 말 파일

텍스트하기 에드는 페이지가도를 automaticly 이름 난 정말이 내 대학에서 사용되는이

에 대해 도움이 필요 URL을 가져

수 파일을

이 파일을 텍스트로 해당 페이지 구문 분석 (텍스트 만)를 저장합니다 언어 감지 프로젝트

ty

답변

1

크롤링 된 페이지는 세그먼트에 저장됩니다. 세그먼트 콘텐츠를 덤핑하여 액세스 할 수 있습니다.

nutch readseg -dump crawl/segments/20100104113507/ dump 

각 세그먼트에 대해이 작업을 수행해야합니다.

관련 문제