2011-10-08 4 views
0

내가 태그 HTML 텍스트의 내용은 다음과 같이 보이는 웹 페이지 광고 필드를 추출하고 ... 파이썬에서파이썬, 유니 코드와 LXML 구문 분석 35 개 xa0new

35 new 

추출 된 데이터를 처리하는 방법 이 모양은 ...

유니 코드를 파이썬으로 정규 문자열로 변환하는 방법은 무엇입니까?
"신규 35"

어떤 라이브러리를 사용할 수 있습니까?

감사합니다.

답변

0

파서에서 유니 코드 문자열을 받고 있습니다. 다른 사람을 선호하는 경우 특정 문자를 바꿀 수 있습니다. 예를 들어, \xa0은 비 분리 공백, 당신은 정기적으로 공간을 대체 할 수

text = text.replace(u"\xa0", u" ") 

변경하려는 이러한 문자의 많은있을 수 있습니다, 그래서 긴 과정이 될 수있다 데이터에서 발생하는 모든 것을 찾아야합니다.

+0

매력처럼 작동했습니다! 감사 –

3

가능한 경우 일반 문자열로 작업하지 마십시오. unicode은 일반적으로 텍스트에 더 유용하며 그 텍스트를 조작하고 처리하기 위해 many well-known solutions이 있습니다.