내 요구 사항은 Nutch를 사용하여 HBase에서 데이터를 크롤링 한 다음 Solr에 색인을 생성하는 것입니다. 어떻게이 일을 계속할 수 있습니까?Nutch를 사용하여 hbase에서 데이터를 크롤링하는 방법
2
A
답변
1
Nutch는 웹 사이트를 크롤링하도록 설계되었으므로 hbase를 크롤링하는 방법을 알지 못합니다.
는 SOLR에 HBase를에서 콘텐츠를 인덱싱하려고하고 있기 때문에, 당신은 적어도 두 가지 옵션이 있습니다
당신은 데이터 후, SOLR으로 인덱스에 데이터를 수정, HBase를에 데이터를 저장하는 응용 프로그램이있는 경우 hbase에 저장됩니다.
Map/Reduce 작업을 작성하여 hbase에서 solr으로 데이터를 보낼 수도 있습니다.
lily project도 확인해야합니다. 그것은 hbase와 solr을 통합합니다.
또한 검색어가 단순한 경우 hbase 스키마를 디자인 할 수 있으므로 solr이 필요하지 않습니다.
1
"크롤링"은 데이터베이스와 관련하여 사용할 용어로 생각하지 않습니다. 크롤링은 특정 사용 사례이며, 웹 페이지를 "크롤링"하기를 원할 때 어떤 작업을 시작하는지 알지 못합니다. 종점이 무엇인지 모릅니다. 그러므로 당신은 어느 시점부터 시작하여 거기에있는 것을 발견하려고 노력합니다.
데이터베이스의 경우 HBase와 같은 NOSQL 데이터베이스. 당신은 이미 그 데이터베이스에있는 것을 "알"있습니다. 정보를 완전히 검색하거나 특정 쿼리를 기반으로 정보를 부분적으로 검색하면됩니다.
아마도 당신의 경우, HBase에서 쿼리 한 데이터로 색인을 작성한 다음 Lucene에 색인을 제공하여 완전한 검색 응용 프로그램을 만들 수 있습니다.
희망하는 방향 일 수 있기를 바랍니다.
관련 문제
- 1. HBase에서 데이터를 업데이트하는 방법
- 2. PHP를 사용하여 양식 데이터를 크롤링하는 방법
- 3. Nutch에서 HTML 만 크롤링하는 방법?
- 4. OAuth를 사용하여 트위터 데이터를 크롤링하는 방법은 무엇입니까
- 5. hbase에서 데이터를 읽고 postgres에 삽입하십시오.
- 6. Wordpress 블로그를 크롤링하는 방법?
- 7. Nutch에서 이미지를 크롤링하는 방법?
- 8. jquery로 아약스에서 오는 데이터를 크롤링하는 방법은 무엇입니까?
- 9. HBase에서 이미지를 가져올 수있는 방법
- 10. HBase에서 필터링
- 11. 말도 안되는 캘린더 웹 페이지를 크롤링하지 않도록 Nutch를 구성하는 방법
- 12. 네 스퀘어 체크인 데이터를 크롤링하는 방법은 무엇입니까?
- 13. amazon hbase에서 데이터 읽기
- 14. 모든 WordPress 페이지를 크롤링하는 방법
- 15. 이 유형의 URL을 크롤링하는 방법
- 16. 검색 엔진 Bots가 크롤링하는 방법?
- 17. Google 웹 이미지를 크롤링하는 방법
- 18. HBase에서 단일 행을 사용합니다.
- 19. Nutch를 사용하여 로컬 HTML 파일 색인 생성
- 20. Nutch를 사용하여 페이지 크롤링 후 처리
- 21. Nutch를 사용하여 지정된 URL 목록을 크롤링
- 22. 방법 - Google에서 비공개 페이지를 크롤링하는 방법
- 23. 기사 크롤링을 위해 Nutch를 확장하는 방법
- 24. 빗금으로 HBase에서 읽음
- 25. Amazon을 크롤링하는 것이 합법적입니까?
- 26. HBase에서 스트리밍되는 Hadoop mapreduce
- 27. Python을 사용하여 Facebook/Myspace에 로그인하고 콘텐츠를 크롤링하는 방법?
- 28. HBase에서 여러 행을 효율적으로 삭제하는 방법
- 29. 인증을 사용하여 웹 사이트를 크롤링하는 크롤러
- 30. HBase에서 필터 인스턴스 재사용
고마워요. 내가 nutch를 사용하여 hbase에서 데이터를 크롤링 할 수 없으므로 impliment하려고합니다. 한가지 더 hdfs 파일 시스템에서 크롤링 할 수 있는지 여부를 알고 싶습니다. ?? 답장을 보내 주셔서 감사합니다 :) – Infinity
그런 종류의 Map/Reduce 작업에 대한 코드 예제가 있습니까? – kamaci