2013-05-27 2 views
1

SOLR 색인에는 350 만 개의 URL이 포함됩니다. 나는 "적절한"URL (템플릿 없음, 무작위 목록)의 목록이 1,5 백만 가지입니다.URL에 의한 SOLR 대량 삭제

SOLR 색인에서 2 백만 개의 URL을 삭제하려면 어떻게해야합니까? (1,5M URL 만 검색해야합니까?)

답변

0

"적절한"문서와 나머지를 구분할 수없는 경우 삭제 쿼리에서 번역 할 수있는 기준으로 문서를 다시 만들려면 모든 데이터가 있다고 가정하고 150 만 개를 다시 색인하는 것이 좋습니다.

+0

색인을 생성하려는 URL 목록 (1,5million)이 있습니다. 이 ulrs 세트는 이미 크롤링, 구문 분석 및 색인 생성 된 큰 데이터 세트 (3,500 만 개)에 속합니다. 예,이 1,5M 개의 URL을 다시 크롤링 할 수 있습니다. 그러나 다른 해결책이있을 수 있습니까? EXCEPT SQL 연산자 같은 것? 아니면 1) SOLR 인덱스에있는 모든 URL을 가져와야합니까? (가능합니까?) 2) 삭제할 URL을 정의하십시오. 3) 삭제 목록을 반복하고 SOLR.deleteByURL (url)을 호출하는 프로그램을 만드시겠습니까? – gmlvsv

+0

이 문서 을 삭제하도록 선택할 수있는 기준이 하나라도 있습니까? 합당한 크기의 일괄 처리로 ID 요청별로 삭제를 그룹화하지 않는 경우. http://wiki.apache.org/solr/UpdateXmlMessages#A.22delete.22_documents_by_ID_and_by_Query를 살펴본 다음 한 번만 커밋하고 프로세스가 완료되면 최적화를 실행하십시오. –

+0

예, 100 % 단일 기준. – gmlvsv

관련 문제