누구나 다양한 주제에서 샘플 문서의 거대한 저장소를 어디에서 찾을 수 있는지 알고 있습니까? 몇 가지 알고리즘을 테스트하기 위해 적어도 수천 개의 문서 (Office 또는 PDF가 괜찮을 것입니다.)를 찾고 있습니다. 문서에는 몇 가지 공통적 인 토대가 있어야합니다. 예를 들어, 프로그래밍과 관련된 1000 개의 문서, 생태계에 ...많은 수의 샘플 문서
누구나 내가 그것을 얻을 수있는 곳을 알고 있습니까?
누구나 다양한 주제에서 샘플 문서의 거대한 저장소를 어디에서 찾을 수 있는지 알고 있습니까? 몇 가지 알고리즘을 테스트하기 위해 적어도 수천 개의 문서 (Office 또는 PDF가 괜찮을 것입니다.)를 찾고 있습니다. 문서에는 몇 가지 공통적 인 토대가 있어야합니다. 예를 들어, 프로그래밍과 관련된 1000 개의 문서, 생태계에 ...많은 수의 샘플 문서
누구나 내가 그것을 얻을 수있는 곳을 알고 있습니까?
편집 : 나? 도움이되지 않습니까? :)
import mechanize, urllib, os
template = r"http://www.google.com/search?q=filetype:pdf&hl=en&start=%s&sa=N"
links = []
br = mechanize.Browser()
br.set_handle_robots(False)
br.addheaders = [('User-agent', 'Firefox')]
for i in xrange(0, 30, 10):
br.open(template % i)
links.extend((link.url for link in br.links(url_regex="^http.+pdf$"))
for url in links:
urllib.urlretrieve(url, os.path.basename(url))
수동으로 수천 가지를 다운로드 할 것으로 예상하십니까? -1 –
그래, 또는 간단한 스크립트를 작성 그를 위해 그것을 할. –
위키피디아를 사용해 보셨나요? ?이
통화 http://en.wikipedia.org/wiki/Special:Random가 임의의 페이지 (그래서 레이아웃 침전물을 제거하는 등의) URL의 끝에 예 = 인쇄 추가, 리디렉션 결과 따릅니다
를 얻을 수 - :하는 스크립트를 작성 이 두 단계 또는 그와 동등한 방법으로 wget을 사용하면 리디렉션이 실행됩니다.
파이프합니다, HTML> PDF 변환기를 통하여 생성 된 HTML 콘텐츠.
1000 회 반복.
이렇게하면 다양한 콘텐츠를 얻을 수 있습니다.
위키피디아의 데이터 센터에서도 몇 명의 친구를 사귈 것이라고 확신합니다 : p –
그런 종류의 트래픽은 그들에게 아무런 의미가 없습니다. 각 요청 사이에 약간의 일시 중지를 추가하십시오. ddos), 아무런 문제가 없습니다. – Kazar
진지하게. 그들은 초당 히트 수천 (수만 또는 수십만 개는 아닐지라도)을 얻는다. 그들은 조금이라도 눈치 채지 못할 것입니다. –
당신은 당신이 찾고있는 문서 유형을 지정 야후 검색 API의 고급 검색을 사용할 수 있습니다. 당신은 당신이 다음 몇 가지 미리 선택한 키워드에 따라 검색을 수행하려는 문서의 유형을 지정 Word 문서의 큰 숫자를 원하는 경우
http://developer.yahoo.com/search/boss/boss_guide/Web_Search.html#optional_args_web
. 그렇게하면 많은 문서를 얻을 수 있습니다.
또한 고급 Google 검색을 긁어 (임의의 목록에서) 파일 타입을 지정하여 방법 문서 링크를 잡을 수있는, 예컨대 : 당신은 지난 7 일 동안 시도 무엇
http://www.google.co.in/search?q=monkey+badger+filetype%3Apdf
나는 파싱을 테스트하기 위해 크고 다양한 PDF를 얻기 위해 "manual filetype : pdf"에 대해 Google 검색을 행운을 보냈다. – Hardwareguy
? 답변이 도움이 되었습니까? 아니면 plz-send-the-samplez에이 질문을 다시해야합니까? :) –
아직 아무 것도 시도하지 않았습니다. 제안 된 솔루션이 흥미 롭긴하지만, 내 요구 사항을 정확히 충족시키지 못합니다 ... – SaguiItay
이 질문은 http://opendata.stackexchange.com/에서 주제가됩니다. –