1
전체 문장을 자체 필드로 색인하려고합니다. OpenNLP 또는 LingPipe와 같은 것을 사용하여 Nutch에서 문장을 분할하면 문장 검색 코드를 어디에 연결해야합니까? 구문 분석 단계 또는 색인 생성 단계에서?Nutch/Solr Indexing Sentences - 파서 플러그인 또는 인덱싱 플러그인?
전체 문장을 자체 필드로 색인하려고합니다. OpenNLP 또는 LingPipe와 같은 것을 사용하여 Nutch에서 문장을 분할하면 문장 검색 코드를 어디에 연결해야합니까? 구문 분석 단계 또는 색인 생성 단계에서?Nutch/Solr Indexing Sentences - 파서 플러그인 또는 인덱싱 플러그인?
두 곳 모두 약간의 수정이 필요합니다.
Nutch 파서는 크롤링 된 콘텐츠에서 서식을 제거합니다. 따라서 콘텐츠가 너트 세그먼트에 저장되면 개행 문자가 사라집니다. 해당 부분을 수정해야합니다.
기본적으로 nutch (이 작업을 수행하는 solr)는 색인을 위해 단어가 아닌 문장을 고려합니다. 그래서 당신도 거기에서 들여다보아야합니다.
OpenNLP를 사용하기 위해 BasicIndexingFilter.java를 수정했지만, 나중에 SpanQuery를 사용할 수 있도록 문장 사이에 토큰을 추가했습니다. 이것은 잘 동작 할 수도 있지만 실제 문장을 필드로 색인화하려고합니다. 또는 문서 자체가 ... 지금 제가 혼동하고있는 것입니다. 'sentence', 'id', 'url', 'title'과 같은 필드를 사용하여 각 문장을 문서 자체에 색인화합니까? - 또는 - 각 웹 페이지를 문서로 계속 색인화하고 기본 Nutch 필드를 유지할 수 있습니까? '문장'이라는 입력란에 여러 개의 입력란을 추가 하시겠습니까? 그게 가능한가? 나는 개념적으로 혼란스러워. – Ramsel
은 모호함을 감안할 때 후자의 제안이 더 적합하다고 생각합니다. solr conf 디렉토리의 Schema.xml을 살펴보고, 필드 정의가있을 것이며, 새로운 필드를 추가하고이를 multiValued로 표시 할 것입니다. 이렇게하면 크롤링 된 여러 문장 (배열로)을 첨부 할 수 있습니다 페이지. –