부인의 동적 크롤링의 문제 : 내 어리 석음을위한 변명하지만 웹 프로그래머가 아니다 : DvBulletin에
나는 파이썬 scrapy를 사용하여 크롤러를 작성하는 것을 시도하고있다. 이 vbulletin 보드를 보았을 때 이상한 동작이 발생했습니다. 파이어 폭스에서 페이지를로드하고 파이어 폭스/파이어 버그를 사용하여 검사 할 때 포럼 L1 헤더에 클래스 forumbit_nopost new L1
(문서의 cat117을 검색하여 관심 요소에 도달 할 수 있음)를 볼 수 있습니다.
스크랩이나 컬을 사용하여 문서를 검색 할 때 클래스를 forumbit_nopost old L1
으로 설정합니다. curl을 사용할 때 파이어 폭스와 일치하도록 사용자 에이전트를 변경했는데 차이점이 없어서 일부 자바 스크립트 실행과 관련이 있다고 생각합니다. 파이어 폭스에서 자바 스크립트를 사용하지 않으려 고 시도했지만 firefox에는 여전히 클래스 속성의 new
변형이있는 소스가 있습니다.
누군가가 내게 무슨 일이 일어 났는지 설명 할 수 있습니까? : D
p.s., chrome은 old
변형도 볼 수 있습니다.
컬 명령을 사용 :
curl http://forums.heroesofnewerth.com/index.php --user-agent "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:12.0) Gecko/20100101 Firefox/12.0" > scratch
Firefox 12와 Chrome 18 (Ubuntu 12.04)에서이 페이지를 열었습니다. - 어디서나 'forumbit_post old'클래스를 얻고 있습니다. 어쩌면 그들은 새로운 레이아웃/엔진을 테스트하고 있었을 것입니까? 우연의 일치? – warvariuc
wget과 chrome이이 날짜와 같이 '이전'으로 게재됩니다. –
추출하려고하는 것은 무엇입니까? "/ h2 @ [class = 'forumtitle']/a" –