2010-04-23 4 views
3

프랑스어 텍스트가 포함 된 파일을 정리해야합니다. 문제는 파일이 동일한 파일 내에 여러 인코딩을 잘못 포함하고 있다는 것입니다.어떤 문자 인코딩이 무엇입니까?

일부 섹션은 ISO8859-1 (라틴어 1)이지만 다른 파트는 '확장 된'ASCII처럼 보이는 1 바이트 문자로 인코딩 된 텍스트를 가지고 있다고 생각합니다. E의

  • 가 0x82 (E 급성) E (E 무덤) E의
  • 0x88의 (E 곡절)
  • 위한
  • 0x8a : 즉, UTF-7 인코딩과 다음은 A에 대한 0x85 (무덤) C의
  • 에는 0x87 (c의 딜라)

이 어떤 부호화입니까?

+0

Windows-1252 인코딩도 살펴 봤습니까? – Axarydax

+2

(UTF-7 태그를 제거했는데 UTF-7은 ASCII의 다른 이름이 아니며 완전히 다른 이름입니다.) – bobince

답변

0

이 웹 사이트 here에는 세 딜라에 대한 0x87 링크가 있습니다. 나는 이것보다 훨씬 더 많이 보지 못했지만 나머지 정보는 여기에서도 찾을 수있을 것입니다.

+0

대문자 C-cedilla이며 우연히 UTF-8 시퀀스의 두 번째 바이트로 0x87 만 언급합니다. – bobince

관련 문제