2014-03-03 1 views
1

http://romhustler.net/file/54654/RFloRzkzYjBxeUpmSXhmczJndVZvVXViV3d2bjExMUcwRmdhQzltaU5UUTJOVFE2TVRrM0xqZzNMakV4TXk0eU16WTZNVE01TXpnME1UZ3pPRHBtYVc1aGJGOWtiM2R1Ykc5aFpGOXNhVzVy < - 가비지가 많이 들어있는 URL의 이름이 필요합니다. (고급 BASH)

http://romhustler.net/rom/ps2/final-fantasy-x-usa <

확인해야 URL - 학부모 URL을 사용하면 브라우저가 파일 이름을 식별 볼이 URL을 붙여 복사하는 경우

. 같은 것을하기 위해 어떻게 bash 스크립트를 얻을 수 있습니까?

는 내가 처음 URL을 WGET 필요하지만 100 개 항목에 대한 것이기 때문에 나는 각각의 URL을 붙여 복사 기운 다.

나는 현재 모든 파일에 설정 메뉴가 있습니다. 파일의 URL에 일치하는 패턴이 없으므로 각 파일을 개별적으로 대량 다운로드하는 방법을 알지 못합니다. 내 작업 메뉴의

* 비트 :

    #Raw gamelist grabber 
    w3m http://romhustler.net/roms/ps2 |cat|egrep "/5" > rawmenu.txt 

        #splits initial file into a files(games01) that contain 10 lines. 
        #-d puts lists files with 01 
    split -l 10 -d rawmenu.txt games 

        #s/ /_/g - replaces spaces with underscore 
        #s/__.*//g - removes anything after two underscores 
    select opt in\ 
    $(cat games0$num|sed -e 's/ /_/g' -e 's/__.*//g')\ 
    "Next"\ 
    "Quit" ; 

    if [[ "$opt" =~ "${lines[0]}" ]]; 
    then 
     ### Here the URL needs to be grabbed ### 

이 수행 될 수있다는 BASH입니다. 이것이 가능한가 ?

답변

0

그 romhustler.net 웹 스크래핑의이 종류를 방지하기 위해 가능하면, 페이지가로드 한 후 몇 초 동안 최종 다운로드 링크를 숨기기 위해, 자신의 전체 다운로드 페이지에 일부 자바 스크립트를 사용하여 나타납니다. 그들은 예를 들어 파일을 ZIP하는 직접 링크를 사용한다면

그러나, 우리는이 작업을 수행 할 수 있습니다 : 피드백에 대한

# Use curl to get the HTML of the page and egrep to match the hyperlinks to each ROM 
curl -s http://romhustler.net/roms/ps2 | egrep -o "rom/ps2/[a-zA-Z0-9_-]+" > rawmenu.txt 

# Loop through each of those links and extract the full download link 
while read LINK 
do 
    # Extract full download link 
    FULLDOWNLOAD=`curl -s "http://romhustler.net$LINK" | egrep -o "/download/[0-9]+/[a-zA-Z0-9]+"` 
    # Download the file 
    wget "http://romhustler.net$FULLDOWNLOAD" 
done < "rawmenu.txt" 
+0

감사합니다! Javascript의 암호 해독을 기대하는 다른 방법이 없다고 말하는 것입니까? 그러나 그것조차도 불가능할 것입니까? 이 페이지에 자바 스크립트를 실행할 수있는 CLI 브라우저가 필요합니다 최종 다운로드 URL을 얻기 위하여 – Infinite

+0

. 빠른 검색 http://phantomjs.org/을 던졌다하지만 난 당신이 또한 (이론적으로) 웹킷 엔진을 사용할 수 있습니다 생각합니다. 페이지의 빠른 분석에서 다운로드 링크는 AJAX 요청에서 얻은 것으로 보입니다. – Jon

관련 문제