Excel에서 UTF-8 텍스트를 내보내는 중이고 파이썬을 사용하여 들어오는 데이터를 읽고 구문 분석하려고합니다.파이썬 : 유니 코드 utf-8 텍스트 파일을 읽고 구문 분석하려면 어떻게해야합니까?
txtFile = codecs.open('halout.txt', 'r', 'utf-8')
for line in txtFile:
print repr(line)
내가 점점 오전 오류는 다음과 같습니다 :
UnicodeDecodeError : 'UTF8'코덱에 바이트를 0xFF를 디코딩 할 수없는 이미 예를 들어,이 시도했습니다, 그래서 나는 모든 온라인 정보를 읽었습니다 위치 0 :
이txtFile.seek(2)
은 '개방'하지만 그건 단지 디 발생 직후 : 16 진수 편집기에서 텍스트 파일을 보면 예기치 않은 코드 바이트
첫 번째 값이 나는 또한 시도했다 FFFE입니다 fferent 오류.
어쨌든 내보내는 텍스트가 UTF-8 * 인코딩 *에 없지만 UTF-16과 같은 다른 유니 코드 인코딩에있을 수 있습니다. 이들은 모두 별개입니다. 이 주제에 대해 알아야 할 것이 많습니다! 이 두 가지를 모두 읽는다면 결코 전에와 같이 이것을 마스터하게 될 것입니다 : http://www.joelonsoftware.com/articles/Unicode.html http://www.amk.ca/python/howto/unicode – u0b34a0f6ae