2012-10-01 1 views
1

나는 Hutch 0.92.1과 통합 된 nutch 2.1을 사용하고 있습니다. 웹 사이트에서 데이터를 가져올 때 모든 데이터는 Hbase의 한 테이블에만 기록되며 이것이 내 문제입니다. 테이블의 이름은 "웹 페이지"입니다.nutch의 시드 파일에있는 모든 다른 URL에 대해 hbase에 다른 테이블을 만드시겠습니까?

시드 파일의 모든 다른 URL을 새 테이블로 만들 수있는 방법이 있습니까?

답변

0

나는 그것을 발견했다. nutch 2.0에서 threre는 테이블 이름의 접두사에 대한 소위 crawlId이다. :)

0

비슷한 기능을 찾고 있었지만 해킹없이 crawlId가 어떻게 사용되는지 이해하지 못했습니다.

즉시 명확하지 않은 것은 inject가 -crawlId 매개 변수를 취할 수 있다는 것입니다 (예 : nutch가 seed.txt -crawlId firstSeed 삽입) ... 그러면 HBase에서 firstSeed_webpage라는 별개의 테이블을 만듭니다. 파일.

위의 사용 예에서는 .txt를 한 줄 한 줄씩 읽고 각 URL에 새로운 crawlId를 부여 할 수있는 bash 스크립트를 작성하는 것이 매우 간단합니다.

!!!!! (참고 : 해당 크롤링과 관련된 모든 명령의 경우 사용할 테이블을 나타 내기 위해 -crawlId 플래그를 포함해야합니다.)

관련 문제