solrindex 동안 빈 콘텐츠 필드가있는 문서의 색인을 건너 뛰도록 Nutch에 지시하는 방법은 무엇입니까?Nutch to Solr 색인 생성 중에 빈 콘텐츠 필드가있는 문서를 건너 뛰는 방법은 무엇입니까?
색인 생략 플러그인은 Nutch가 특정 메타 태그 필드없이 해당 문서를 필터링 할 수 있도록 허용하며 콘텐츠와 같은 일반 필드는 필터링하지 않습니다.
solrindex 동안 빈 콘텐츠 필드가있는 문서의 색인을 건너 뛰도록 Nutch에 지시하는 방법은 무엇입니까?Nutch to Solr 색인 생성 중에 빈 콘텐츠 필드가있는 문서를 건너 뛰는 방법은 무엇입니까?
색인 생략 플러그인은 Nutch가 특정 메타 태그 필드없이 해당 문서를 필터링 할 수 있도록 허용하며 콘텐츠와 같은 일반 필드는 필터링하지 않습니다.
내용이 비어있는 경우 문서를 버리는 새로운 Nutch 필터를 구현해야 할 수도 있습니다.
당신은이 링크를 플러그인을 작성하는 방법에 대한 자세한 정보를 얻을 수 있습니다 : https://wiki.apache.org/nutch/AboutPlugins
편집 :
난 그냥 예를 들어 간단한 플러그인을 썼다. "content"필드를보고 비어 있으면 문서를 무시하고 색인을 생성하지 않습니다.
여기에서 다운로드 할 수 있습니다. https://github.com/nimeshjm/index-discardemptycontent
작업을 수행 할 수있는 기존 플러그인이 있습니까? – codemonkey
@codemonkey 작업에 필요한 간단한 플러그인을 추가했습니다. – nimeshjm