2013-01-17 2 views
1

tweepy를 사용하여 임의의 트윗을 수집합니다, 그리고 영숫자가 아닌 트윗을 걸러 내고 싶습니다.파이썬으로 트윗을 문자열로 변환하기

하지만 확인하려면 먼저 트윗을 문자열로 변환해야합니다. 예를 들어 ,

from tweepy import StreamListener 
.... 

class sListener(StreamListener): 
     def on_status(self,status): 
      .... 
      text = str(status.text) 
      if not isAlphanumeric(text): 
       ...... 

그러나, 트윗 다음과 같은 메시지와 비 ASCII 경우 자체가 오류가 발생 문자열에 트윗을 변환하는 STR()를 사용하여 :

UnicodeEncodeError: 'ascii' codec can't encode character 

그래서 내가 ' 문자열을 비 ASCII 문자로 필터링하기 위해 문자열로 변환해야하는 루프에 붙어 있지만 ASCII가 아닌 문자열로 변환 할 수 없습니다.

데이터 유형 트윗이 어떤지조차 모르겠습니다. ...

아무도 도와 주실 수 없습니까?

+0

시도해 보셨습니까? (http://stackoverflow.com/a/1207479/1984421) –

+0

ASCII가 아닌 트윗을 쓰지 않으려면 'str()'을 사용하여 변환하지 않는 것은 건너 뛰지 않는 이유는 무엇입니까? – woemler

답변

0

당신의 트윗 인코딩이 ascii

text = status.text.encode('utf8') 
0

의 시도되지 것 같다. 작동 여부 확인 :

tweetText = status.text.encode("utf-8") 
tweetText = unicode(tweetText, errors='ignore') 
0

시도 내가 과거에 비슷한 문제가 있었다

text = unicode(status.text) 

대신

text = str(status.text) 
관련 문제