나는 대학 그룹의 간행물을 보여주는 웹 사이트를 운영하고 있습니다.웹 사이트에서 PDF 파일을 가져 오시겠습니까?
나는이 데이터가 포함 된 CSV 파일 (ISI Web of Science 웹 사이트에서 수동으로 가져온 파일)을 구문 분석하기 위해 빠르고 더러운 Ruby 스크립트를 작성하여 HTML 형식으로 제공합니다.
CSV 파일에는 PDF 파일에 대한 직접 링크가 없습니다. 그 대신 doi.org에 갈 수있는 정보가 있습니다.이 정보는 PDF 링크와 함께 실제 페이지 (저널에 의해 호스팅 됨)로 전달됩니다.
CSV 파일의 각 발행물에 대해 해당 웹 페이지로 이동하여 PDF를 가져오고 싶습니다.
나는 전에 이것을 해본 적이 없다. 터미널에서 wget을 사용하면 TLD 정보없이 저널 웹 사이트의 HTML 링크가 단순히 "/ link info"라는 점을 제외하고는 정상적으로 작동합니다.
아무에게도이 간단한 방법을 권장 할 수 있습니까?
실제 gui 브라우저를 사용하면 실제로 파일을 다운로드하는 데 과도한 부담이됩니다. 모든 스크립트가 GUI 시스템에서 실행되는 것은 아닙니다. – johannes
@johannes : 댓글을 달기 전에 대답을 읽는 것이 좋습니다. 나는 또한 그래픽 환경이 필요없는 Mechanize를 추천했다. 하지만, 내 대답은 언급대로, 그것은 자바의 좋은 거래를 처리하지 않습니다. 이것이 문제 였다면 대안 솔루션을 제공했습니다. – Pesto