2012-05-02 2 views
1

부인의 동적 크롤링의 문제 : 내 어리 석음을위한 변명하지만 웹 프로그래머가 아니다 : DvBulletin에

나는 파이썬 scrapy를 사용하여 크롤러를 작성하는 것을 시도하고있다. 이 vbulletin 보드를 보았을 때 이상한 동작이 발생했습니다. 파이어 폭스에서 페이지를로드하고 파이어 폭스/파이어 버그를 사용하여 검사 할 때 포럼 L1 헤더에 클래스 forumbit_nopost new L1 (문서의 cat117을 검색하여 관심 요소에 도달 할 수 있음)를 볼 수 있습니다.

스크랩이나 컬을 사용하여 문서를 검색 할 때 클래스를 forumbit_nopost old L1으로 설정합니다. curl을 사용할 때 파이어 폭스와 일치하도록 사용자 에이전트를 변경했는데 차이점이 없어서 일부 자바 스크립트 실행과 관련이 있다고 생각합니다. 파이어 폭스에서 자바 스크립트를 사용하지 않으려 고 시도했지만 firefox에는 여전히 클래스 속성의 new 변형이있는 소스가 있습니다.

누군가가 내게 무슨 일이 일어 났는지 설명 할 수 있습니까? : D

p.s., chrome은 old 변형도 볼 수 있습니다.

컬 명령을 사용 :

curl http://forums.heroesofnewerth.com/index.php --user-agent "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:12.0) Gecko/20100101 Firefox/12.0" > scratch 
+0

Firefox 12와 Chrome 18 (Ubuntu 12.04)에서이 페이지를 열었습니다. - 어디서나 'forumbit_post old'클래스를 얻고 있습니다. 어쩌면 그들은 새로운 레이아웃/엔진을 테스트하고 있었을 것입니까? 우연의 일치? – warvariuc

+0

wget과 chrome이이 날짜와 같이 '이전'으로 게재됩니다. –

+0

추출하려고하는 것은 무엇입니까? "/ h2 @ [class = 'forumtitle']/a" –

답변

0

나는 새로운 수단이 당신의 마지막 방문 이후 새 게시물이 있음을 내기 것이다. 스크립트가 세션간에 쿠키를 유지하지 않으면 스크립트에서이를 표시하지 않습니다.

관련 문제