2010-03-02 6 views
5

안녕하세요. SOLR에서 데이터를 인덱싱 할 때 콘텐트에서 HTML을 제거했습니다.SOLR에서 HTML을 스트리핑하여 저장하지 않고 인덱싱하지 마십시오.

그러나 단순히 데이터를 저장할 때 데이터에서 HTML을 제거 할 수 있습니까? solr.HTMLStripCharFilterFactory

<field name="Content" type="textNoHTML" indexed="true" stored="true"/> 

그리고, 필드 유형 "textNoHTML"구현합니다 :

내 필드

<charFilter class="solr.HTMLStripCharFilterFactory" /> 

내가 말했듯이,이 색인에 대한 잘 작동하지만 그것을이다 유사한 필터를 적용하여 저장하는 것이 가능합니까?

건배!

답변

3

DataImportHandler를 사용하는 경우 HTMLStripTransformer을 사용할 수 있습니다.

그렇지 않으면이 클라이언트 측을 직접 구현해야합니다. 클라이언트가 .NET 인 경우 HtmlAgilityPack을 사용할 수 있습니다.

+0

+1 알겠습니다. DataImportHandler를 사용하여 데이터 저장소에서 데이터를 가져올 경우 해당 변환기를 사용할 수 있지만 XML 명령을 통해 추가 할 수는 없습니까? 왜 그거야? 여하튼, 차가움, 나는 agilitypack를 조사 할 것이다. 건배! – andy

+0

AFAIK 저장된 필드는 항상 축 어적으로 저장됩니다. DIH는 클라이언트 역할을하므로 변압기를 사용할 수 있습니다. –

+0

아, 알겠습니다. 건배 마우리시오 – andy

관련 문제