2013-06-21 7 views
1

트위터에서 데이터를 크롤링하고 싶습니다. 트위터 API를 사용하고 있지만 속도 제한으로 인해 매우 느리게 실행됩니다. 또는 URL을 직접 파싱하여 트위터 API를 우회 할 수 있습니다. urllib 패키지. 그러나 그것이 내가 아는 전부입니다.트위터 API 대신 urllib을 사용하여 크롤링하는 트위터

트위터 API를 사용하지 않고도 타임 라인을 크롤링하고 트위터의 데이터를 따르는 방법에 대한 도움을 더 줄 수 있습니까? 의견 있으십니까? 미리 감사드립니다.

추신 : 프로그래밍을 위해 Python을 사용하고 있습니다.

+0

정확히 무엇을 얻으려고하는지 알려주면 도움이 될 것입니다. 어떤 정보를 찾고 계십니까? 크롤링 자체는 매우 간단합니다. 요청 페이지, URL 구문 분석, 각 URL 요청, 반복 – MattDMo

+0

MattDMo 답장을 보내 주셔서 감사합니다. 저는 크롤러를 처음 사용하고 특히 크롤링에 자주 사용하는 사람들, 특히 파이썬에서 무엇이 있는지 모릅니다. 게다가 BS 도입을위한 emcnaughton 덕택입니다. 하지만 일반적으로 find()에서 인수를 설정하는 방법을 모른다. – tonia

답변

1

이 과정에서 BeautifulSoup을 사용해야합니다.

from BeautifulSoup import BeautifulSoup as soupy 
from urllib import urllib 
html = urllib.urlopen(YOUR_TWITTER_URL).read() 
soup = soupy(html) 
for tweet in soup.find('ol',attrs={'class':'stream-items'}).findAll('li'): 
    print tweet.find('p').text 
+0

고마워. 다음과 같은 관계를 유지하는 것은 어떻습니까? – tonia