BS가 모든 테이블을 "보지 못합니다"?

BeautifulSoup을 사용하여 baseball-reference.com의 데이터를 분석하고 this one과 같은 일부 페이지를 제외한 모든 페이지를 찾을 수 있습니다. 동일한 페이지 (다른 데이터)가 완벽하게 작동합니다 (예 : this one). 클래스 중 하나로 'stats_table'테이블을 필터링하려고합니다. 그때 STH 좋아합니까BS가 모든 테이블을 "보지 못합니다"?

bs = BeautifulSoup(stream, 'lxml', parse_only=SoupStrainer('table'))

과 : 나는이 코드를 사용

for table in bs.find_all('table'): 
    print table.attrs 
     ... bla bla...

그들이 것을이 코드는 타격과 투구 테이블을 참조하지 않습니다 table.attrs 중 분명 거기 ... 반복합니다. 동일한 코드가 거의 모든 다른 페이지에서 이와 같이 작동합니다. str (bs)을 (를) 볼 때

모두 아이디어가 있습니까?

출처

2012-08-01 Marin

당신은 당신이 타격 테이블이 무엇을 의미하는지 설명 할 수 없습니다. 어떤 것들이 정확하게 보이지 않는지,'TorontoBlueJaysbatting'과 다른 것들을보고있는 중입니까? – TankorSmash

네, 그렇습니다 ... 두 가지 중 하나도 감지되지 않습니다. 이제는 방화 광에서 페이지를 열었고 버그가있는 것 같습니다. 자동으로 수정하는 방법에 대한 아이디어가 있습니까? 길잃은 헤드 엔드 태그는 문제가있는 것 같지만 정확하게 수정하는 방법을 모르겠다. – Marin

의견에 게시 했으므로 페이지에 오류가 있습니다. 당신은 그것을 정리하는 HTML 지저분를 사용해야합니다 http://pypi.python.org/pypi/pytidylib/0.2.1는

당신은 직장에서 HTML 단정을 확인할 수 있습니다 http://validator.w3.org/

출처

2012-08-01 21:37:35 root

대단히 감사합니다 !! – Marin

BS가 모든 테이블을 "보지 못합니다"?

답변

관련 문제