2014-04-11 2 views
1

나는 Nutch and Solr을 처음 사용하고 있습니다. 따라서 기본적인 질문을하는 경우 사전에 사과드립니다. 환경의nutch가 solr을 사용하여 크롤링 한 데이터를 보는 방법은 무엇입니까?

상세 정보 : 게스트 OS와

  1. 가상 상자 : 우분투 12.04.4, 호스트 OS : 윈도우 8
  2. Nutch 자료 : 너치 1.7
  3. SOLR 자료 : 아파치 SOLR 3.6 0.2
  4. wiki.apache.org/nutch/NutchTutorial
    참조
012,351,

나는이 명령은 오류없이 성공 - 명령

bin/nutch crawl urls -solr http://<code>mylocalhost<code>:8983/solr/ -depth 3 -topN 5 

으로 크롤링 시작했다.

그런 다음 브라우저에서 solr 관리 페이지를 열고 기본 검색어 문자열 \*:*으로 검색하려고했습니다. 그러나, 이것은 아래의 내용으로 페이지 결과 : "HTTP 오류 400"

This XML file does not appear to have any style information associated with it. The document tree is shown below. 
<response> 
    <lst name="responseHeader"> 
     <int name="status">0</int> 
     <int name="QTime">0</int> 
     <lst name="params"> 
      <str name="start">0</str> 
      <str name="q">*:*</str> 
      <str name="rows">10</str> 
      <str name="indent">on</str> 
      <str name="version">2.2</str> 
     </lst> 
    </lst> 
    <result name="response" numFound="0" start="0"/> 
</response> 

내가 SOLR에서 'nutch'를 검색하려 할 때,이 오류를 초래.

nutch에서 크롤링 한 데이터를 확인하여 유효성을 검사 할 수 있도록 도와 주시겠습니까?

답변

0

데이터의 유효성을 검사하는 가장 간단한 방법은 데이터를 쿼리하고 예상 된 결과를 반환하는지 확인하는 것입니다. 거기에 도움이 :

당신은 기본적인 쿼리 문자열을 시도했다고 솔직한 관리자 또는 나머지 API를 통해 의미합니까? solr admin을 사용하고 있다면, 먼저 *를 이스케이프 할 필요가 없습니다. 그래서 q는 :입니다. 나머지 API에서는 *를 올바르게 인코딩해야합니다. 이런 식으로 뭔가 : 당신이 할 수있는

http://your_host_name:8888/solr/your_core_name/select?q=*%3A*&wt=json&indent=true 

또 다른 것은 nutch의 중간 데이터의 일부를 검증 인은 readlinkdb, mergedb, readdb 빈/nutch 명령을 사용하여 크롤링 또는 링크 DBS를 덤프하는 것입니다.

+0

답장을 보내 주셔서 감사합니다. 좀 더 분석 한 결과 schema.xml (nutch의 conf 디렉토리에서 복사 된 schema.xml)에있는 기본 검색 필드 (예 : content)가 solrconfig의 일치 검색 필드와 일치하지 않는 것으로 나타났습니다. xml (즉, 텍스트). 'text'에 대한 'content'를 주목하십시오. 텍스트에서 'text'를 'content'로 변경 한 후에 문제가 해결되었습니다. HBase (0.90.4)로 'nutch'(2.2.1)를 구성 할 수있었습니다. 데이터를 크롤링 할 수 있지만 지금은 어떻게 확인할 지 모릅니다. – user3523860

+0

OK, 그러면 문제는 인증 테스트를 작성하는 것입니까? 쿼리 결과를 크롤링 된 사이트에 대해 얻은 결과와 비교해야합니다. 따라서 파일 시스템에서 doc id가 파일 시스템 경로 인 파일 시스템을 크롤링하는 경우 ls -R의 결과를 q가 *. *이고 fl : id 인 쿼리와 비교할 수 있습니다. 웹 사이트는 사이트 색인이있는 경우 비슷한 기능을 수행 할 수 있습니다. 어떤 종류의 데이터를 탐색하려고합니까? – LizH

+0

내 주요 목표는 웹 사이트에서 제품 세부 정보를 크롤링하고이 크롤링 된 정보를 HBase에 저장하는 것입니다.데이터를 크롤링 할 수 있으며 HBase에 저장되어 있습니다. 그러나 HBase에서 특정 테이블을 검색하면 크롤링 된 사이트의 데이터가 표시되지 않습니다. 이 특정 문제에 대해서는 별도의 스레드를 만들었습니다. http://stackoverflow.com/questions/23564206/unable-to-verify-crawl-data-stored-in-hbase 이 스레드를 살펴 보시기 바랍니다. 너의 생각을 알려줘. 나는이 점에서 제공되는 도움에 대해 당신에게 매우 감사 할 것입니다. – user3523860

관련 문제