2011-12-20 3 views
1

vb.net에서 HTML 민첩성 팩을 사용하여 웹 페이지를 구문 분석하고 있지만 대부분 잘 작동하지만 도움이 필요한 사이트를 발견했습니다.vb.net에서 document.write의 무리로 작성된 웹 페이지를 구문 분석하는 방법은 무엇입니까?

내 http 개체 (나는 chilkat http를 사용하고 있으며 자바 스크립트 엔진이 없다)로 웹 페이지를 가져 가려고하면 기본적으로 전체 페이지에 대한 document.writes로 잘못 작성된 페이지로 돌아갑니다.

먼저 브라우저 컨트롤을 사용하여 페이지를 렌더링하고 싶지 않습니다.

xpath를 사용하여이 페이지를 쉽게 구문 분석 할 수있는 것으로 알고 있습니까? xpath는 javascript와 작동합니까? 민첩성 팩으로 자바 스크립트를 제거 할 수있는 방법이 있습니까?

위의 내용을 모두 만족하지 못하면 xpath 규격 문서로 바꾸려면 어떻게해야할까요?

답변

0

대부분의 페이지가 자바 스크립트로 렌더링되는 경우 최종 결과 문서를 얻으려면 자바 스크립트를 실행할 수 있어야합니다.

이렇게하려면 XBrowser과 같은 headless browser이 필요합니다.이 XBrowser은 자바 스크립트를 실행할 수 있습니다. 결과 문서를 HTML 민첩성 팩에 공급할 수 있습니다.

+0

vb.net 용 javascript를 실행할 수있는 헤드리스 브라우저에 대한 다른 제안 사항은 무엇입니까? XBrowser가 더 이상 개발되지 않는 것 같습니다. – user1108728

관련 문제