2014-10-24 2 views
1

저는 파이썬과 스페인어 텍스트 텍스트로 작업 중이며 목록 화에 많은 문제가 있습니다. 모든 문장 부호를 보존하고 싶습니다. 올바른 인코딩을 사용하여 모든 텍스트를 오브젝트로 감싸는 방법이 있습니까? 어떻게 인코딩 문제를 해결할 수 있습니까? 나는 또한 이것이 문제라는 것을 모르는 방식으로 OSX에서 일하고있다. 파이썬으로 스페인어 인코딩 문제가 있습니까?

나는 모든 준비와 노력 : 내가 .txt 인 파일이 많은 폴더를 연결하여이 기능을 # -*- coding: utf-8 -*-

: Adem√°s_de adem√°s_de는 구두점 기호를 보존되지 않습니다

import os 
import shutil 


def concatFiles(): 
    path = '/Users/user/Desktop/OpinionsTAG_txt/' 
    files = os.listdir(path) 
    with open("/Users/user/Desktop/output_concatFile.txt", "wb") as fo: 
     for f in files: 
      with open(os.path.join(path, f), "rb") as fi: 
       shutil.copyfileobj(fi, fo) 


if __name__ == "__main__": 
    concatFiles() 

문제가 출력됩니다. 올바른 출력은 Además además입니다. output_concatFile.txt를 인코딩 오류없이 모든 스페인어 텍스트를 보존하는 객체로 포장하는 방법이 있습니까? 이 문제를 어떻게 해결할 수 있습니까?

+0

텍스트 파일에 UTF BOM을 추가하는 것 외에 인코딩 정보를 포함 할 수있는 방법이 없습니다. –

답변

1

내장 된 open 대신 io.open을 사용하고 파일의 인코딩을 지정하십시오.

인코딩이 무엇인지 알아야합니다. 그 파일은 당신에게 말할 수 없습니다. 편집자가 말할 수 없습니다. 파일을 만든 사람이 당신에게 말해야합니다.

+0

인코딩이 무엇인지 어떻게 알 수 있습니까? –

+0

확인. 'codecs.open '의 예를 들어 주시겠습니까? –

관련 문제