2012-06-09 4 views
0

내 응용 프로그램에서 파일을 받게됩니다. 파일에 검색 가능한 텍스트 (텍스트 내용)가 있는지 또는 검색 가능한 텍스트 (이미지)가없고 표시되는지 확인해야합니다.검색 가능한/검색 할 수없는 파일을 자바로 식별

PDF 파일에서 검색 할 수없는 유형이 있기 때문에 파일 확장자를 사용할 수 없습니다.

자바 코드가 필요합니다. 누구든지 제발 도와 줄 수 있어요.

+1

이 링크가 도움이 될 것 같아요 : http://stackoverflow.com/q/620993/1001027 –

+1

PDF 파일의 경우 실제로 파일을 열고 그 구조를 검사하여 어떤 종류의 포함 된 데이터. Word 문서와 같은 다른 파일 형식에도 동일하게 적용됩니다. 이는 상당한 양의 작업입니다. 프로그램에서 이해하려는 각 파일 형식에 대한 지원을 실제로 구현해야합니다. 마법의'File.containsSearchableData()'메소드는 없습니다. – Wyzard

답변

0

이 문제에 대한 실질적인 해결책은 파일 내용에서 알 수없는 파일의 MIME 유형을 파악하는 것입니다. 그런 다음 MIME 유형을 해당 파일 유형의 텍스트를 추출하는 클래스로 매핑해야합니다.

이것은 발견 적 프로세스이지만 잘못된 대답이나 (실제로는) "알 수 없음"을 반환 할 수 있지만 (MIME 유형 식별) 첫 번째 부분을 수행하는 라이브러리가 있습니다. 다음은이 작업을 수행하는 방법에 대한 SO 질문과 다른 참조의 샘플입니다

0

data mining의 영역에있다, 그리고 검색 엔진 (Lucene). 많은 변환기 (pdftotext, htmltotext, unzip, etcetera)가 있습니다. 그런 다음 문자 인코딩이 중요한 역할을합니다. UTF16-LE는 char 당 2 바이트를 사용합니다. 일부 파일 유형은 헤더, 마법 쿠키 (JPEG, GIF, PDF)를 식별합니다.

귀하의 필요에 가장 잘 맞는 프로젝트를 인터넷으로 검색하는 것이 가장 좋습니다. 그리고 파이프 라인을 설계 한 후에 점진적으로 기능을 추가하십시오.

데이터 마이닝의 표준 인 디자인이 필요한 경우 JDM 2.0에서 API를 제공 할 수 있습니다.

관련 문제