hpricot을 사용하여 테이블 기반 웹 사이트에서 정보를 추출하려고합니다. 나는 FireBug로 XPath를 얻는다.hpricot with firebug 's XPath
/html/body/div/table/tbody/tr/td/table/tbody/tr[2]/td/table/tbody/tr/td[2]/table/tbody/tr[3]/td/table[3]/tbody/tr
이 ... 분명히, 파이어 버그의 XPath는이 렌더링 된 HTML의 경로 및 사이트에서 어떤 실제 HTML입니다 작동하지 않습니다. 나는 tbody 제거 문제를 해결할 수 있습니다 읽었습니다. 내가 좀 더 연구를 ... 작동하지 않습니다 아직
/html/body/div/table/tr/td/table/tr[2]/td/table/tr/td[2]/table/tr[3]/td/table[3]/tr
그리고, 어떤 사람들은 숫자를 제거 자신의 XPath를 얻을보고, 그래서 나는 이것을 시도 :
나는 함께 시도
: 아직행운
/html/body/div/table/tr/td/table/tr/td/table/tr/td/table/tr/td/table/tr
...
그래서 나는이 같은 단계별로하기로 결정
내가 필요로하는 정보는 bbb에서 찾을 수 있지만 ccc에서는 찾을 수 없습니다.
길거나 복잡한 XPath로 HTML을 스크랩하는 데 더 좋은 도구가 있습니까?