연구 목적으로, 나는 그 텍스트에만 관심이 있지만 큰 (~ 100K) 웹 페이지 집합을 원합니다. 나는 그들을 gensim LDA 주제 모델로 사용할 계획이다. CommonCrawler는 시작하기에 좋은 장소 인 것처럼 보이지만 어떻게해야할지 모르겠습니다. 누군가 100K 텍스트 파일을 다운로드하는 방법 또는 파일에 액세스하는 방법을 알려줄 수 있습니까 (다운로드하는 것이 더 쉬운 경우)?Amazon CommonCrawel의 하위 집합을 다운로드하는 방법 (텍스트 만 (WET 파일?)이 필요함)
1
A
답변
3
데이터 세트의 일부만 다운로드 할 수 있습니다 (원하는 달을 선택할 수 있음). 텍스트 (WET 파일이라고 함) 만 다운로드 할 수 있습니다. 예를 들어 일 경우 2014 년 8 월 크롤링 데이터를 다운로드 할 수 있습니다. http://blog.commoncrawl.org/2014/09/august-2014-crawl-data-available/이며 파일 형식에 대한 설명은 http://blog.commoncrawl.org/2014/04/navigating-the-warc-file-format/
입니다.관련 문제
- 1. Amazon EC2에서 AMI를 다운로드하는 방법?
- 2. 하위 기어에서 로그를 다운로드하는 방법
- 3. 하위 집합을 생성하는 방법
- 4. MVC : DRY vs WET
- 5. EF에 하위 집합을 포함시키는 방법?
- 6. 임시 자격 증명에 토큰이 필요함, amazon s3
- 7. 파일이 C에서 텍스트 파일이 아닌지 확인하는 방법 #
- 8. 개체 간 관계의 하위 집합을 모델링하는 방법
- 9. Xcode에서 OCUnit 테스트의 하위 집합을 실행하는 방법
- 10. 트리 맵에서 항목의 하위 집합을 얻는 방법?
- 11. 폴더의 하위 폴더 나열 - Matlab (파일이 아닌 하위 폴더 만)
- 12. Amazon Beanstalk에서 Java 8을 다운로드하는 Dockerfile Linux
- 13. 클래스의 하위 집합을 serialize
- 14. JQuery : 필요한 구성 요소 만 다운로드하는 방법?
- 15. wget을 사용하여 모든 하위 디렉토리를 다운로드하는 방법?
- 16. 만 나는이 형식의 파일이
- 17. Amazon S3에 중복 파일이 있습니다.
- 18. 리눅스 커널의 작은 하위 집합을 컴파일하십시오 (즉, 몇 파일 만).
- 19. data.frame에서 열과 행의 하위 집합을 선택하는 방법
- 20. 데이터 집합을 하위 보고서에 바인딩하는 방법
- 21. lapply 내에 여러 하위 집합을 만드는 방법
- 22. EmberJS -보기에서 모델의 하위 집합을 표시하는 방법
- 23. has_and_belongs_to_many 관계의 하위 집합을 얻는 방법
- 24. 기준을 사용하여 SAS 하위 집합을 만드는 방법
- 25. 모든 그룹에서 행의 하위 집합을 얻는 방법
- 26. 하위 쿼리 결과의 하위 집합을 쿼리 하시겠습니까?
- 27. amazon s3 grails plugin을 사용하여 파일을 업로드하고 다운로드하는 방법
- 28. CGI로 파일을 다운로드하는 방법
- 29. 파일을 문자열로 다운로드하는 방법 - Android
- 30. 컬렉션의 하위 집합을 파기하는 Backbone.js