2009-07-14 8 views
1

누구나 다양한 주제에서 샘플 문서의 거대한 저장소를 어디에서 찾을 수 있는지 알고 있습니까? 몇 가지 알고리즘을 테스트하기 위해 적어도 수천 개의 문서 (Office 또는 PDF가 괜찮을 것입니다.)를 찾고 있습니다. 문서에는 몇 가지 공통적 인 토대가 있어야합니다. 예를 들어, 프로그래밍과 관련된 1000 개의 문서, 생태계에 ...많은 수의 샘플 문서

누구나 내가 그것을 얻을 수있는 곳을 알고 있습니까?

+0

? 답변이 도움이 되었습니까? 아니면 plz-send-the-samplez에이 질문을 다시해야합니까? :) –

+0

아직 아무 것도 시도하지 않았습니다. 제안 된 솔루션이 흥미 롭긴하지만, 내 요구 사항을 정확히 충족시키지 못합니다 ... – SaguiItay

+0

이 질문은 http://opendata.stackexchange.com/에서 주제가됩니다. –

답변

0

Ontheinternetzzz?

편집 : 나? 도움이되지 않습니까? :)

import mechanize, urllib, os 

template = r"http://www.google.com/search?q=filetype:pdf&hl=en&start=%s&sa=N" 
links = [] 

br = mechanize.Browser() 
br.set_handle_robots(False) 
br.addheaders = [('User-agent', 'Firefox')] 
for i in xrange(0, 30, 10): 
    br.open(template % i) 
    links.extend((link.url for link in br.links(url_regex="^http.+pdf$")) 
for url in links: 
    urllib.urlretrieve(url, os.path.basename(url)) 
+0

수동으로 수천 가지를 다운로드 할 것으로 예상하십니까? -1 –

+0

그래, 또는 간단한 스크립트를 작성 그를 위해 그것을 할. –

6

위키피디아를 사용해 보셨나요? ?이

  1. 통화 http://en.wikipedia.org/wiki/Special:Random가 임의의 페이지 (그래서 레이아웃 침전물을 제거하는 등의) URL의 끝에 예 = 인쇄 추가, 리디렉션 결과 따릅니다

  2. 를 얻을 수 - :하는 스크립트를 작성 이 두 단계 또는 그와 동등한 방법으로 wget을 사용하면 리디렉션이 실행됩니다.

  3. 파이프합니다, HTML> PDF 변환기를 통하여 생성 된 HTML 콘텐츠.

  4. 1000 회 반복.

이렇게하면 다양한 콘텐츠를 얻을 수 있습니다.

+0

위키피디아의 데이터 센터에서도 몇 명의 친구를 사귈 것이라고 확신합니다 : p –

+0

그런 종류의 트래픽은 그들에게 아무런 의미가 없습니다. 각 요청 사이에 약간의 일시 중지를 추가하십시오. ddos), 아무런 문제가 없습니다. – Kazar

+0

진지하게. 그들은 초당 히트 수천 (수만 또는 수십만 개는 아닐지라도)을 얻는다. 그들은 조금이라도 눈치 채지 못할 것입니다. –

2

당신은 당신이 찾고있는 문서 유형을 지정 야후 검색 API의 고급 검색을 사용할 수 있습니다. 당신은 당신이 다음 몇 가지 미리 선택한 키워드에 따라 검색을 수행하려는 문서의 유형을 지정 Word 문서의 큰 숫자를 원하는 경우

http://developer.yahoo.com/search/boss/boss_guide/Web_Search.html#optional_args_web

. 그렇게하면 많은 문서를 얻을 수 있습니다.

또한 고급 Google 검색을 긁어 (임의의 목록에서) 파일 타입을 지정하여 방법 문서 링크를 잡을 수있는, 예컨대 : 당신은 지난 7 일 동안 시도 무엇

http://www.google.co.in/search?q=monkey+badger+filetype%3Apdf

+0

나는 파싱을 테스트하기 위해 크고 다양한 PDF를 얻기 위해 "manual filetype : pdf"에 대해 Google 검색을 행운을 보냈다. – Hardwareguy

관련 문제