2011-02-01 5 views
0

웹 페이지와 상호 작용하고 인간이하는 것과 유사한 방식으로 정보를 추출하는 지능형 웹 스파이더를 만드는 방법에 대한 아이디어가 있습니다. 브라우저로 웹 페이지를 표현하십시오

나는 우리가 우리의 브라우저에서 보는 것과 유사하거나 동일한 웹 페이지의 표현을 필요로 이렇게하려면

나는 모든의 위치, 색상과 스타일에 관한 데이터에 대한 액세스를 필요 가능하면 픽셀 단위의 페이지 요소.

는하지만 난 그냥 렌더링 된 비트 맵, 나는 텍스트를 추출 링크를 클릭하고 버튼을 누르고

내가 얻을하여 DOM 모델을 느끼는 것은있을 수 출발점하지만 더 할 수 있도록하려면 원하지 않는 구체적인 조언이 제공 될 것입니다.

분명히하기 위해 브라우저에서 제공되는 것과 유사한 형태로 프로그래밍 방식으로 웹 페이지에 대한 액세스 권한을 얻고 싶습니다. 예를 들어 특정 픽셀 위치에서 색상이나 텍스트를 확인하거나 부위.

답변

2

Selenium (또는 greasemonkey와 같은 브라우저를 스크립팅하는 다른 방법)을 확인해보십시오. 웹 페이지가 어떻게 표시되는지는 특정 브라우저에서 상당히 다르므로 스크립팅은 분명히 사용자에게 표시되는 가장 정확한 방법입니다.

+0

감사합니다.하지만 C++ 프로그램을 통해 프로그래밍 방식으로 조작하고 상호 작용할 수있는 방식으로 이러한 데이터에 액세스하는 것이 주된 관심사입니다. 브라우저 렌더링 간의 불일치는 그리 큰 문제가 아닙니다. – zenna

+0

greasemonkey를 사용하면 프로그래밍 방식으로 액세스 할 수 있습니다. :-) C++의 경우, WebKit 또는 IE ActiveX 컨트롤을 사용하거나 응용 프로그램에 웹 브라우저를 포함시키는 것이 가장 좋은 방법 일 것입니다. –

관련 문제