2016-08-08 12 views
1

나는 GATE NLP을 처음 사용합니다. 총알이 들어있는 문서가 있습니다. GATE에로드 할 때. 불릿은 으로 인쇄되는 알려지지 않은 유형 기호로 감지됩니다. 또한 인코딩을 UTF-8으로 설정하려고했습니다. 또한 프로그래밍 방식으로 문서를로드하려고 시도하면 글 머리 기호가 ?으로 감지됩니다.GATE NLP에서 물음표로 표시되는 글 머리 기호

누구나 설명 할 수 있습니까?

예 : 여기

 Promoted to Senior Member Technical in 2.5 years of experience.

GATE DEVELOPER UI에 내가 "프로그램"을 한 때 ? 기호가 표시되는 상징이다.

+0

그렇지 않으면 질문에 대한 답변을 드릴 수 없습니다 ... 예 : 어떤 종류의 파일 (txt, pdf, doc, docx)을로드하고 계십니까? 프로그래밍 방식으로로드하는 것은 무엇을 의미합니까? 소스 코드의 관련 부분을 게시 할 수 있습니까? – dedek

+0

'pdf '의 경우 이것은 관련 될 수 있습니다 : _In WinAnsiEncoding, 040보다 큰 사용되지 않는 코드는 글 머리 기호 문자에 매핑됩니다. https://issues.apache.org/jira/browse/PDFBOX-1713 – dedek

+0

pdf, doc, Docx. 프로그래밍 방식으로 말하자면, 임베디드 게이트를 사용하여 문서를로드하고 파이프 라인으로 실행합니다. 실행하면 어떻게됩니까? 거기 있어요 . – ganesh

답변

0

내 경험에 의하면 docdocx 개의 파일은 일반적으로 자를 생성하지 않습니다. 글 머리 기호가 누락되거나 (글 머리 기호로 서식이 지정된 텍스트) (원시 글 머리 기호가있는 텍스트)으로 인쇄됩니다. Parsing either font style or block of paragraph in GATE

Pdf 파일이 종종 GATE 문서에서 " -bullet 문자를"생산 :

또한이 관련 질문을 참조하십시오. pdf 또는 Apache PDFBox 문제와 관련이 있습니다 (예 : this one.

이 문자들도 유니 코드 값을 가지고 있습니다. XML에서 이들은 예를 들어 으로 인코딩됩니다. 이 경우 해당 글자를 추적하고 (예 : 원래 글 머리 기호 문자에 따라 유니 코드 값이 다를 수 있음) 인쇄 가능한 것으로 교체하십시오 (예 : ).

? 문자에 대해 : 아마도이 문자를 지원하지 않는 Java 환경 때문일 수 있습니다. 예를 들어,를 참조하십시오 : Why Some Unicode Characters appears to be question mark in the console?

+0

예, 문제는 PDF 문서입니다. 이제 doc을 HTML로 변환하고 HTML 문서를 처리하고 있습니다. 그래서, 그것은 나를 위해 일하고 있습니다 .thanks @dedek – ganesh

관련 문제