많은 .DOC 문서가 있습니다. 나는 심지어 그들이 Word 문서인데도 긍정적이지는 않지만 그렇다고하더라도 예를 들어이를 열어 파싱해야합니다. 파이썬은 그들로부터 정보를 추출합니다.이 DOC 문서를 인코딩하는 데 사용 된 페이지 코드는 무엇입니까?
문제는 인코딩 된 방법을 알 수 없었습니다. UltraEdit의 변환 기능은 어떤 인코딩을 시도했는지에 관계없이 텍스트를 수정하지 않습니다. OpenOffice 3.2는 내용을 올바르게 표시하지 못했습니다 (Windows-1252 추측).
어떤 팁을 주셔서 감사 대신에 "난 Assemblée 제네랄"의
"lÕAssemblŽe gŽnŽrale"
여기에 누군가가 pagecode 알고 바라고, 예입니다.
무리가 중요한 숫자 인 경우에만 녹색 스톤을 사용한다고 추가해야합니다. – Stephen