2013-10-15 4 views

답변

2

내용이 비어있는 경우 문서를 버리는 새로운 Nutch 필터를 구현해야 할 수도 있습니다.

당신은이 링크를 플러그인을 작성하는 방법에 대한 자세한 정보를 얻을 수 있습니다 : https://wiki.apache.org/nutch/AboutPlugins

편집 :
난 그냥 예를 들어 간단한 플러그인을 썼다. "content"필드를보고 비어 있으면 문서를 무시하고 색인을 생성하지 않습니다.

여기에서 다운로드 할 수 있습니다. https://github.com/nimeshjm/index-discardemptycontent

+0

작업을 수행 할 수있는 기존 플러그인이 있습니까? – codemonkey

+0

@codemonkey 작업에 필요한 간단한 플러그인을 추가했습니다. – nimeshjm

관련 문제