나는 국가 이름을 포함하여 여러 악센트 부호가있는 문자로 된 CSV를 가지고 있습니다. 구문 분석을 위해 지정된 인코딩 및 방언으로 CSV 판독기를 사용하고 있지만 액센트를 제대로 처리하지는 않습니다.파이썬 3에서 Excel 문서의 텍스트를 구문 분석하는 방법은 무엇입니까?
p = re.compile('(?<=n).*?(?=,)')
with open('/file.csv', 'rt', encoding='cp1252') as csvFile:
reader = csv.reader(csvFile, dialect='excel')
next(csvFile)
for row in reader:
print(row[0])
accented_words = p.findall(row[8])[0].strip()
print(accented_words)
p
은 일부 악센트 부호가있는 문자를 빼내는 정규 표현식입니다. 그것은 나에게 'C te te dory'와 같은 결과를 준다. 이 부분을 지나치게 강조 문자를 보존하려면 어떻게해야합니까?
정말'cp1252' 인코딩입니까? 이 파일은 실제로 utf-8 또는 다른 인코딩 일 가능성이 큽니다. 아마도 https://pypi.python.org/pypi/chardet 라이브러리를 사용해보고 인코딩이 무엇인지 생각해보십시오. – VooDooNOFX