Amazon CommonCrawel의 하위 집합을 다운로드하는 방법 (텍스트 만 (WET 파일?)이 필요함)

연구 목적으로, 나는 그 텍스트에만 관심이 있지만 큰 (~ 100K) 웹 페이지 집합을 원합니다. 나는 그들을 gensim LDA 주제 모델로 사용할 계획이다. CommonCrawler는 시작하기에 좋은 장소 인 것처럼 보이지만 어떻게해야할지 모르겠습니다. 누군가 100K 텍스트 파일을 다운로드하는 방법 또는 파일에 액세스하는 방법을 알려줄 수 있습니까 (다운로드하는 것이 더 쉬운 경우)?Amazon CommonCrawel의 하위 집합을 다운로드하는 방법 (텍스트 만 (WET 파일?)이 필요함)

출처

2014-12-17 UriCS

데이터 세트의 일부만 다운로드 할 수 있습니다 (원하는 달을 선택할 수 있음). 텍스트 (WET 파일이라고 함) 만 다운로드 할 수 있습니다. 예를 들어 일 경우 2014 년 8 월 크롤링 데이터를 다운로드 할 수 있습니다. http://blog.commoncrawl.org/2014/09/august-2014-crawl-data-available/이며 파일 형식에 대한 설명은 http://blog.commoncrawl.org/2014/04/navigating-the-warc-file-format/

입니다.

출처

2014-12-17 21:42:53 UriCS

Amazon CommonCrawel의 하위 집합을 다운로드하는 방법 (텍스트 만 (WET 파일?)이 필요함)

답변

관련 문제