필자는 텍스트 파일에서 발음 구별 기호를 제거하려고합니다. 필자는 pdf 파일을 도구로 텍스트로 변환했으며, 나 자신이 만들지 않았습니다. 그들이 사용하는 인코딩을 이해할 수 없었습니다. 이 텍스트는 정문으로 스페인어에 익숙한 Nahuatl으로 작성되었습니다.파이썬에서 올바른 인코딩을 찾는 방법은 무엇입니까?
텍스트를 문자열 목록으로 변환했습니다. 아니요. 다음을 시도하고 있습니다.
# check whether there is a not-ascii character in the item
def is_ascii(word):
check = string.ascii_letters + "."
if word not in check:
return False
return True
# if there is a not ascii-character encode the string
def to_ascii(word):
if is_ascii(word) == False:
newWord = word.encode("utf8")
return newWord
return word
내가 원하는 것은 내 문자열의 유니 코드 버전입니다. 지금까지는 작동하지 않으며 latin1, cp1252, iso-8859-1과 같은 여러 인코딩을 시도했습니다. 내가 얻은 것은 누군가 내가 잘못한 것을 말해 줄 수 있니?
올바른 인코딩을 어떻게 찾을 수 있습니까?
감사합니다.
편집 : 나는 컨버터 (PDF-TXT)을 개발 사람들에게 쓴 그들은 이미 유니 코드를 사용하고있다. 그래서 John Machin은 (1)을 대답했습니다. 이클립스 디버거에서 목록 자체가 유니 코드의 일부 표시를 표시했기 때문에 나에게 명확하지 않은 일부 의견을 적어 두었습니다. 그리고 항목을 개별적으로 보면 어떤 방식 으로든 모두 디코딩되어 실제로 유니 코드를 보았습니다.
도움 주셔서 감사합니다.
Ned Batchelder의 [Pragmatic Unicode, 또는 어떻게 고통을 멈 춥니 까?] (http://nedbatchelder.com/text/unipain.html)를 참조하십시오. Fact of Life # 4 ("바이트의 인코딩을 추측 할 수 없으며, 반드시 말해야 함, 또는 추측해야 함") 직접 관련이 있지만 나머지도 사용할 수있는 것으로 보입니다. – delnan
문자 빈도 및 조합에 대한 통계 정보를 사용하는 인코딩을 추측하는 라이브러리는 영어와 마찬가지로 Nahuatl에서도 잘 작동하지 않을 수 있습니다. 불행한 사실은 인코딩을 추측하려는 노력의 대부분이 텍스트가 소수의 주요 세계 언어 중 하나에 포함 된 문서에 초점을 맞추고 있다는 것입니다. – BrenBarn
@ user1986412 : 파일을 분석 가능하게 만들 수 있습니까? –