2010-03-03 3 views
0

많은 .DOC 문서가 있습니다. 나는 심지어 그들이 Word 문서인데도 긍정적이지는 않지만 그렇다고하더라도 예를 들어이를 열어 파싱해야합니다. 파이썬은 그들로부터 정보를 추출합니다.이 DOC 문서를 인코딩하는 데 사용 된 페이지 코드는 무엇입니까?

문제는 인코딩 된 방법을 알 수 없었습니다. UltraEdit의 변환 기능은 어떤 인코딩을 시도했는지에 관계없이 텍스트를 수정하지 않습니다. OpenOffice 3.2는 내용을 올바르게 표시하지 못했습니다 (Windows-1252 추측).

어떤 팁을 주셔서 감사 대신에 "난 Assemblée 제네랄"의

"lÕAssemblŽe gŽnŽrale"

여기에 누군가가 pagecode 알고 바라고, 예입니다.

답변

0

디지털 도서관 http://www.greenstone.org/은 인코딩 검색을 포함하여 단어 문서에서 텍스트를 추출하는 기능이 뛰어납니다.

+0

무리가 중요한 숫자 인 경우에만 녹색 스톤을 사용한다고 추가해야합니다. – Stephen

0

서버 모드에서 msword를 실행하면 다양한 스크립팅 옵션이 제공됩니다. 인코딩이 가능할 것이라고 확신합니다.

+0

포인터를 가져 주셔서 감사합니다. – Gulbahar

관련 문제