2010-12-15 2 views
2

내가 실제로하려는 것은 BEEMP3.COM이 어떻게 작동하는지 파악하는 것입니다.조언/인터넷에서 오디오 콘텐츠를 거미/크롤링/수집하는 가장 좋은 방법에 대한 조언

사이트의 속도 때문에 다른 사이트/출처를 그 자리에서 긁는 것이 아닌지 의심 스럽습니다. 그들은 아마도 "결과"를 저장하고 검색 용어를 쿼리하기 위해 일종의 데이터베이스 (PostgreSQL 또는 MySQL)를 사용합니다.

내 질문은 어떻게 사람들이 크롤링/거미 또는 실제로 mp3 파일/콘텐츠를 얻는다고 생각합니까? 그들은 인터넷을 거미질로 만들거나 mp3 트릭의 google 색인을 사용하여 원시 mp3 파일로 호스트를 찾는 알고리즘을 가지고 있어야합니다.

모든 의견과 조언, 아이디어 감사합니다 :)

답변

0

QueryPath 웹 거미를 구축하기위한 훌륭한 도구입니다.

나는 그들이 검색의 출발점으로 사용하는 "시드 사이트"(Google, 유즈넷 또는 수동으로 수집 한 것) 목록을 가지고 있으며 실행중인 스파이더를 설정합니다 그들을 상대로. (가) 하나를 추출하는

  • 웹 페이지 데이터를 가져 오기

    • 가 출발점으로 웹 페이지를 가지고 (사용 컬)
    • 를 사용하여 정규 표현식 :

      당신이하는 스크립트를 작성해야 링크 (b)는 MP3 파일에 대한 링크 데이터베이스

    • 에 어떤 MP3 링크가 위의 방법으로 처리를 위해 큐에 다른 웹 페이지에 대한 링크 목록을 추가
    • 장소

    또한 나쁜 링크를 지우려면 정기적으로 MP3 링크를 다시 확인해야합니다.

  • 0

    또는 beemp3.com과 같은 MP3 스파이더를 크롤링하고 직접 다운로드 링크를 모두 추출하여 데이터베이스에 저장할 수 있습니다. 당신은 단지 두 파일 난 단순한 HTML 돔이 필요합니다. II. 데이터베이스에 대한 링크를 추출 할 수있는 응용 프로그램입니다. 내가 http://kenyaforums.com/bongomp3_external_link_search_engine_at_kenyaforums_com.php

    에 무슨 짓을했는지

    확인 당신은 어떤 모순의 경우 질문에 계속.

    관련 문제