URL1 : https://duapp3.drexel.edu/webtms_du/
설정 세션 페이지
URL2 : https://duapp3.drexel.edu/webtms_du/Colleges.asp?Term=201125&univ=DREX
URL3 : 개인 프로그래밍 프로젝트로 https://duapp3.drexel.edu/webtms_du/Courses.asp?SubjCode=CS&CollCode=E&univ=DREX
, 내 대학 과정 카탈로그를 긁어 편안한 API로 제공 할 .
그러나 다음과 같은 문제가 있습니다.
내가 긁을 필요가있는 페이지는 URL3입니다. 그러나 URL3은 URL2를 방문한 후에 의미있는 정보 만 반환하지만 (이 경우 용어는 Colleges.asp?Term=201125
임), URL2를 방문한 후에 만 URL2를 방문 할 수 있습니다.
나는 Fiddler를 사용하여 HTTP 데이터를 모니터링하려고 시도했지만 쿠키를 사용하고 있다고 생각하지 않습니다. 브라우저를 닫으면 즉시 모든 것이 다시 설정되므로 Session을 사용하고 있다고 생각됩니다.
URL 3을 어떻게 긁을 수 있습니까? 프로그래밍 방식으로 URL 1과 2를 먼저 방문한 다음 file_get_contents(url3)
을 시도했지만 작동하지 않습니다 (아마 3 개의 다른 세션으로 등록했기 때문일 수 있습니다).
쿠키를 사용하여 설정되고 세션이'내가 볼 수 없지만 URL2가 필요한 이유 ASPSESSIONIDASBRRCCS', 그것은 이름이다 인은 – Grexis
@Grexis을 (나를 수 있습니다, 나는 주위에 처음으로 관심을 지불하는 걸 잊었) : 아, 정보 주셔서 감사합니다. URL3은 수업이 개최되는 장소와 학생을 데려 갈 사람과 같은 정보를 제공합니다. 이것은 URL2에 설정된 것으로 보이는 학기 (학기)에 달려 있습니다. – xbonez
PHP는 기계화 라이브러리가없는 몇 가지 동적 언어 중 하나임을 언급 할 가치가 있습니다. 이런 이유로 펄 파이썬이나 루비는 모두 긁기에 더 좋은 선택입니다. – pguardiario