Nutch를 사용하여 hbase에서 데이터를 크롤링하는 방법

내 요구 사항은 Nutch를 사용하여 HBase에서 데이터를 크롤링 한 다음 Solr에 색인을 생성하는 것입니다. 어떻게이 일을 계속할 수 있습니까?Nutch를 사용하여 hbase에서 데이터를 크롤링하는 방법

출처

2011-12-13 Infinity

Nutch는 웹 사이트를 크롤링하도록 설계되었으므로 hbase를 크롤링하는 방법을 알지 못합니다.

는 SOLR에 HBase를에서 콘텐츠를 인덱싱하려고하고 있기 때문에, 당신은 적어도 두 가지 옵션이 있습니다

당신은 데이터 후, SOLR으로 인덱스에 데이터를 수정, HBase를에 데이터를 저장하는 응용 프로그램이있는 경우 hbase에 저장됩니다.

Map/Reduce 작업을 작성하여 hbase에서 solr으로 데이터를 보낼 수도 있습니다.

lily project도 확인해야합니다. 그것은 hbase와 solr을 통합합니다.

또한 검색어가 단순한 경우 hbase 스키마를 디자인 할 수 있으므로 solr이 필요하지 않습니다.

출처

2011-12-13 14:57:30 codingFoo

고마워요. 내가 nutch를 사용하여 hbase에서 데이터를 크롤링 할 수 없으므로 impliment하려고합니다. 한가지 더 hdfs 파일 시스템에서 크롤링 할 수 있는지 여부를 알고 싶습니다. ?? 답장을 보내 주셔서 감사합니다 :) – Infinity

그런 종류의 Map/Reduce 작업에 대한 코드 예제가 있습니까? – kamaci

"크롤링"은 데이터베이스와 관련하여 사용할 용어로 생각하지 않습니다. 크롤링은 특정 사용 사례이며, 웹 페이지를 "크롤링"하기를 원할 때 어떤 작업을 시작하는지 알지 못합니다. 종점이 무엇인지 모릅니다. 그러므로 당신은 어느 시점부터 시작하여 거기에있는 것을 발견하려고 노력합니다.

데이터베이스의 경우 HBase와 같은 NOSQL 데이터베이스. 당신은 이미 그 데이터베이스에있는 것을 "알"있습니다. 정보를 완전히 검색하거나 특정 쿼리를 기반으로 정보를 부분적으로 검색하면됩니다.

아마도 당신의 경우, HBase에서 쿼리 한 데이터로 색인을 작성한 다음 Lucene에 색인을 제공하여 완전한 검색 응용 프로그램을 만들 수 있습니다.

희망하는 방향 일 수 있기를 바랍니다.

출처

2011-12-16 15:16:57

Nutch를 사용하여 hbase에서 데이터를 크롤링하는 방법

답변

관련 문제