2009-10-20 3 views
-2

웹 사이트에서 정보를 얻으려고하는데 필요한 정보가 missouri.edu 사이트에 있습니다 (공개적으로 사용 가능합니다). 가 여기에 내가 달성하기 위해 필요한 과정입니다 : - https://webapps.missouri.edu/ODDSearchEngine/oddsearch 로 이동 - 검색을 "비즈니스"와 같은 부서 이름 - "비즈니스 전문 학교, 발전" 같은 부서 이름 중 하나를 클릭 - 나는 할 수 있어야합니다 "Business College, Advancement"를 클릭 한 후 출력되는 페이지의 출처를 프로그래밍 방식으로 볼 수 있습니다..NET, 정보를 얻기 위해 동적 (Java App?) 웹 페이지를 스크랩합니까?

저는 비즈니스 부서의 각 부서 (또는 "회계"와 같이 입력 한 부서)마다 각 페이지의 출처를 알리고 싶습니다.

Windows 프로그램에서 가능합니까? 실행되는 "ODDSearchEngine"처럼 보이며 Java 애플릿입니다. 페이지를 가져 오는 방법을 잘 모릅니다.

참고로 ODDSearchEngine이 출력하는 기존 프로그램에 주소를 넣으면 2 "java.lang.NullPointerException"오류가있는 검색 페이지의 소스 코드가 반환됩니다.

.Net을 통해이 정보를 쉽게 얻을 수있는 방법이 있습니까?

+0

다시 한 번 나는 웹 사이트의 소스를 가져 와서 필요한 정보를 얻는 프로그램을 이미 가지고 있습니다.이 프로그램은 오류가 발생하여 프로그램에서 작동하지 않는 사이트입니다. 수동으로 프로세스를 진행하지 마십시오. –

+0

애플릿이 보이지 않습니까? – leonm

답변

1

비슷한 작업을 위해 최근에 Watin을 사용했습니다 (쿠키에 로그인하고 추적해야 함). Watin은 기본적으로 웹 사이트를 방문하는 사용자를 시뮬레이트합니다. 그것은 당신이 필요로하는 것에 대해 아마 과잉 (그리고 천천히) 일 것입니다.

내가 놀았던 또 다른 방법은 HttpWebRequest/Response입니다. 이것은 귀하의 필요를 충족시켜야하는 것 같습니다. HTML Agility Pack을 사용하여받은 HTML에 대한 작업을 수행 할 수도 있습니다.

+0

그들은 트릭을 할 수도있는 것처럼 보입니다. 대단히 감사합니다. 나는 HttpWebRequest/Response쪽으로 기대고있다. –

+0

사실, 그들 중 누구도 일하지 못했습니다. HttpWebRequest/Response 항목이 나에게 "Go"버튼을 클릭하는 지점에 도착했지만 거기에서 하위 페이지 ("Business College, Advancement")를 얻으려고하면 여전히 동일한 오류가 발생합니다. java.lang.NullPointerException. "클릭"과정을 거치면 소스를 가져 오는 방법을 볼 수 없다는 점을 제외하면 WatiN이 작동 할 수도 있습니다. 페이지가 너무 형식이 잘못되어 클릭 할 링크에 대한 정의 특성이 없기 때문에 다른 주소의 끝에 다른 "ggid"가 있음을 알 수 있습니다. –

관련 문제