2012-04-21 2 views

답변

0

두 곳 모두 약간의 수정이 필요합니다.

Nutch 파서는 크롤링 된 콘텐츠에서 서식을 제거합니다. 따라서 콘텐츠가 너트 세그먼트에 저장되면 개행 문자가 사라집니다. 해당 부분을 수정해야합니다.

기본적으로 nutch (이 작업을 수행하는 solr)는 색인을 위해 단어가 아닌 문장을 고려합니다. 그래서 당신도 거기에서 들여다보아야합니다.

+0

OpenNLP를 사용하기 위해 BasicIndexingFilter.java를 수정했지만, 나중에 SpanQuery를 사용할 수 있도록 문장 사이에 토큰을 추가했습니다. 이것은 잘 동작 할 수도 있지만 실제 문장을 필드로 색인화하려고합니다. 또는 문서 자체가 ... 지금 제가 혼동하고있는 것입니다. 'sentence', 'id', 'url', 'title'과 같은 필드를 사용하여 각 문장을 문서 자체에 색인화합니까? - 또는 - 각 웹 페이지를 문서로 계속 색인화하고 기본 Nutch 필드를 유지할 수 있습니까? '문장'이라는 입력란에 여러 개의 입력란을 추가 하시겠습니까? 그게 가능한가? 나는 개념적으로 혼란스러워. – Ramsel

+0

은 모호함을 감안할 때 후자의 제안이 더 적합하다고 생각합니다. solr conf 디렉토리의 Schema.xml을 살펴보고, 필드 정의가있을 것이며, 새로운 필드를 추가하고이를 multiValued로 표시 할 것입니다. 이렇게하면 크롤링 된 여러 문장 (배열로)을 첨부 할 수 있습니다 페이지. –

관련 문제