2016-09-22 1 views
0

"우편 폭탄이 감지되었습니다!" Solr을 사용하여 색인 생성을 시도하는 동안 합법적 인 HTML HTML 파일 (PDF에서 이전 버전으로 변환 됨) 중 일부는 예외 파일입니다. 폭탄 탐지의 한계를 높이거나 신뢰할 수있는 사용자의 하위 집합 만이 잘 알려진 특정 문서를 시스템에 입력 할 수있게하려면 사용을 중지하고 싶습니다.Solr 구성을 사용하여 Tika에서 우편 폭탄 탐지를 비활성화 (또는 제한 증가)하는 방법은 무엇입니까?

Solr 설명서에 Tika 구성 파일을 제공 할 수 있다고 나와 있지만 SecureContentHandler의 출력 임계 값을 설정하는 방법을 Tika 설명서에서 찾을 수 없거나이 핸들러를 다른 것으로 대체 할 수 없습니다. 지퍼 폭탄을 막아서는 안됩니다 ...

어떻게 Tika 설정 파일에서 그러한 변경을 지정할 수 있습니까?

+0

나는 이것을 위해 SOLR 설정을 살펴볼 필요가 있다고 생각한다. Tika 설정을 사용하면 파서 및 감지기를 사용하여 제어 할 수 있습니다. 'SecureContentHandler'를 사용/사용하지 않는 것은 애플리케이션 측입니다. Tika을 호출하기 전에 – Gagravarr

+0

문서는 파서와 탐지기 구성에 대해서는 언급하고 있지만 컨텐츠 핸들러에 대해서는 언급하지 않습니다. Zip 폭탄 탐지를 찾고있는 SecureContentHandler를 구성하기 위해 Tika 구성을 설정하는 방법에 대해서는 잘 모릅니다. 응용 프로그램에서 직접 호출 할 수만 있다면 Solr을 사용하여 해당 문서를 처리 할 수 ​​없다는 것을 의미합니다 ... Java에서 임의의 사용자 정의 클래스를 구현하지 않고 Solr을 사용하여 원하는 것을 얻을 수있는 방법이 있기를 바랍니다. .. – rosenfeld

+0

당신은 Tika 구성에서 그것을 할 수 없다, 당신은 SOLR – Gagravarr

답변

1

이것은 Solr 자체가 어느 시점에서 회귀 한 것으로 보입니다. 내가 직접 노코 기리 (노코 기리 :: HTML을 사용하여 내 루비 응용 프로그램에서 HTML 문서에서 텍스트를 추출하여, 티카를 교체 결국

https://issues.apache.org/jira/browse/TIKA-2091

: 팀 앨리슨에 의해 조사되었다 내가 만든이 티켓에 자세한 내용 (html_content). 텍스트). 이것이 영향을 미치고 Solr에서 수정되기를 원한다면 Solr 프로젝트에서 티켓을 생성하십시오.

관련 문제