나는 Nutch and Solr을 처음 사용하고 있습니다. 따라서 기본적인 질문을하는 경우 사전에 사과드립니다. 환경의nutch가 solr을 사용하여 크롤링 한 데이터를 보는 방법은 무엇입니까?
상세 정보 : 게스트 OS와
- 가상 상자 : 우분투 12.04.4, 호스트 OS : 윈도우 8
- Nutch 자료 : 너치 1.7
- SOLR 자료 : 아파치 SOLR 3.6 0.2
- wiki.apache.org/nutch/NutchTutorial
참조
나는이 명령은 오류없이 성공 - 명령
bin/nutch crawl urls -solr http://<code>mylocalhost<code>:8983/solr/ -depth 3 -topN 5
으로 크롤링 시작했다.
그런 다음 브라우저에서 solr 관리 페이지를 열고 기본 검색어 문자열 \*:*
으로 검색하려고했습니다. 그러나, 이것은 아래의 내용으로 페이지 결과 : "HTTP 오류 400"
This XML file does not appear to have any style information associated with it. The document tree is shown below.
<response>
<lst name="responseHeader">
<int name="status">0</int>
<int name="QTime">0</int>
<lst name="params">
<str name="start">0</str>
<str name="q">*:*</str>
<str name="rows">10</str>
<str name="indent">on</str>
<str name="version">2.2</str>
</lst>
</lst>
<result name="response" numFound="0" start="0"/>
</response>
내가 SOLR에서 'nutch'를 검색하려 할 때,이 오류를 초래.
nutch에서 크롤링 한 데이터를 확인하여 유효성을 검사 할 수 있도록 도와 주시겠습니까?
답장을 보내 주셔서 감사합니다. 좀 더 분석 한 결과 schema.xml (nutch의 conf 디렉토리에서 복사 된 schema.xml)에있는 기본 검색 필드 (예 : content defaultSearchField>)가 solrconfig의 일치 검색 필드와 일치하지 않는 것으로 나타났습니다. xml (즉, 텍스트 ). 'text'에 대한 'content'를 주목하십시오. 텍스트 에서 'text'를 'content'로 변경 한 후에 문제가 해결되었습니다. HBase (0.90.4)로 'nutch'(2.2.1)를 구성 할 수있었습니다. 데이터를 크롤링 할 수 있지만 지금은 어떻게 확인할 지 모릅니다. –
user3523860
OK, 그러면 문제는 인증 테스트를 작성하는 것입니까? 쿼리 결과를 크롤링 된 사이트에 대해 얻은 결과와 비교해야합니다. 따라서 파일 시스템에서 doc id가 파일 시스템 경로 인 파일 시스템을 크롤링하는 경우 ls -R의 결과를 q가 *. *이고 fl : id 인 쿼리와 비교할 수 있습니다. 웹 사이트는 사이트 색인이있는 경우 비슷한 기능을 수행 할 수 있습니다. 어떤 종류의 데이터를 탐색하려고합니까? – LizH
내 주요 목표는 웹 사이트에서 제품 세부 정보를 크롤링하고이 크롤링 된 정보를 HBase에 저장하는 것입니다.데이터를 크롤링 할 수 있으며 HBase에 저장되어 있습니다. 그러나 HBase에서 특정 테이블을 검색하면 크롤링 된 사이트의 데이터가 표시되지 않습니다. 이 특정 문제에 대해서는 별도의 스레드를 만들었습니다. http://stackoverflow.com/questions/23564206/unable-to-verify-crawl-data-stored-in-hbase 이 스레드를 살펴 보시기 바랍니다. 너의 생각을 알려줘. 나는이 점에서 제공되는 도움에 대해 당신에게 매우 감사 할 것입니다. – user3523860