2013-05-26 4 views
0

현재 대학 수업 가용성을 확인하는 프로그램을 만들고 있지만 웹 사이트는 수업 및 시간을 표시하는 데 자바 스크립트를 사용합니다. Java를 사용하여이 데이터를 스크랩하여 클래스가 열려있을 때 사용자에게 알려주고 있습니다.자바 스크립트를 사용하는 웹 사이트에서 데이터 스크랩

Selenium을 사용해 보았지만 잘 사용하는 방법을 모르겠습니다. 이 작업을 수행하는 더 쉬운 방법이 있습니까?

+0

셀레늄은 이에 적합합니다. 제발 좀 더 구체적으로 도와주세요.이 일을 도와주세요. – luksch

+0

@luksch 막연한 것에 대해 유감스럽게 생각합니다. 어디서부터 시작해야할지 모르겠습니다. Selenium을 통해 브라우저에서 페이지를 열 것인지 아니면 데이터를 스크랩해야하는지 잘 모르겠습니다. 나는 전체적으로 웹 사이트 스크래핑에 익숙하지 않아 내 순진함에 대해 사과한다. –

+0

더 복잡한 스크래핑 작업을 위해 셀레늄을 사용하여 문제의 페이지로 이동하고 필요한 모든 클릭을 한 다음 최종 페이지를 문자열로 저장 한 다음 JSoup을 사용하여 처리합니다. 이것은 상황에 따라 과잉이 될 수 있으므로 셀레늄 셀렉터를 사용하여 직접 긁어 모으십시오. – luksch

답변

0

구체적으로 알기가 어렵습니다. 하지만 데이터가로드 타임에 페이지에 없으면 AJAX를 사용하여로드 할 수 있다고 가정합니다.

내가 말했듯이 너무 많이 추측 할 수는 있지만 질문이 모호합니다. AJAX를 사용하는 경우 전화를 확인하고 (약간의 행운으로 json 응답을 얻음) 작업이 매우 쉽습니다.

+0

나는이 프로젝트를 조금이라도 끝내지 만 AJAX라고 믿는다. 특히 이것은 소스 페이지 뷰 소스입니다. http : //sis.rutgers.edu/soc/#subjects%3Fsemester%3D92013%26campus%3DNB%26level%3DU –

+0

@MikeMelchione 브라우저에서 개발자 도구를 열고 활성화하십시오. 네트워크 탭을 클릭하면 전달 된 모든 AJAX 요청과 매개 변수를 볼 수 있으며 필요한 호출을 리버스 엔지니어링 할 수 있어야합니다. – chesles

관련 문제