2012-09-25 2 views
2

지난 2 일 동안이 항목을 찾고 있지만 찾기가 어렵습니다. 그러나 여기에서 문제는 어떤 단어와 함께 google에서 col span을 검색 할 때 다른 것과 변형 된 문서가 부적절하다는 것을 보여줄 때입니다.Tika 및 행과 열로 데이터 구문 분석

질문 : tika apache 파서를 사용하여 col span과 행 범위가 xhtml 인 다른 유형의 문서에서 파싱 된 데이터를 검색하거나 가져올 수 있습니까? 그렇다면 자습서 또는 저를 도울 수있는 문서가 있습니다.

+0

는 티카 즐겁게 테이블에 포함 된 파일 형식의 범위를 파싱 사용하고 XHTML로 당신에게 표를 제공하는 것입니다. 너가 원하는게 그거야? 그렇지 않다면 질문을 편집하여 명확하게 만들 수 있습니까? – Gagravarr

답변

1

불행히도, 상자 밖으로.

이 정보를 Tika 출력으로 가져 오려면 스프레드 시트를 구문 분석하는 데 사용되는 기본 라이브러리를 확장해야합니다.

대안은 EPPlus

+0

Tika은 Excel 스프레드 시트를 행복하게 테이블 기반 XHTML로 변환합니다! 왜 그렇게 생각하지 않았 니? – Gagravarr

+0

동의 함, Tika는 셀이 여러 행이나 여러 열을 스팬하지 않는 간단한 테이블을 렌더링 할 수 있습니다. 우리의 실험에서,이 aspect가 도입 되 자마자, 결과 XHTML은 우리의 목적에 중요한 행/열의 레이아웃 측면에서 원래의 스프레드 시트와 충실 함을 잃었습니다. Tika의 임무는 문서에서 텍스트를 추출하는 것입니다. 솔직히 우리는 너무 많은 것을 요구했기 때문에 다른 기계화로 전환했습니다. – ANDYTEAS

+0

개선 요청을 제기했다고 생각하십니까? 이상적으로 작은 샘플 파일과 실패한 단위 테스트를 포함합니까? 아무도 문제를 제기하지 않으면 프로젝트가 실현되지 않을 가능성이 큽니다. – Gagravarr