가능한 중복 :
Looking for dataset to test FULLTEXT style searches on방대한 양의 텍스트 파일을 어디에서 찾을 수 있습니까?
내가 테스트를 위해 일반 텍스트 100 GB의 필요가있는 데이터 마이닝의 프로젝트에에 최근에 나는 ... 나는 검색의 피곤 그물 하루 종일. 누군가 나 같은 텍스트 파일을 다운로드 할 수있는 링크를 제공하여 나를 도와주세요. 감사.
가능한 중복 :
Looking for dataset to test FULLTEXT style searches on방대한 양의 텍스트 파일을 어디에서 찾을 수 있습니까?
내가 테스트를 위해 일반 텍스트 100 GB의 필요가있는 데이터 마이닝의 프로젝트에에 최근에 나는 ... 나는 검색의 피곤 그물 하루 종일. 누군가 나 같은 텍스트 파일을 다운로드 할 수있는 링크를 제공하여 나를 도와주세요. 감사.
어떤 유형의 텍스트를 검색 하시나요? 대화, 기사, 책 - 또는 모든 것의 좋은 보급? http://en.wikipedia.org/wiki/Wikipedia:Database_download
당신이
제발 나에게 구체적인 링크를 제공 할 수 있습니다 ..! n 230GB 정도되는 XML 형식의 압축 파일을 보았습니다. Heres 링크 .. http://en.wikipedia.org/wiki/Wikipedia:Database_download .. 다운로드하기 전에 내가 정확히 그 안에 무엇이 있는지 알고 싶습니다 .. ps : 우리는 의미있는 텍스트 파일을 찾고 있습니다. 텍스트 ... 대화, 다큐멘터리 등 ...! – Sri
그것은 실제로 Wikimedia의 덤프 파일의 덤프 파일입니다. 일반적으로 XML 형식의 Wikipedia 기사가 포함되어 있습니다. 확인할 수 있습니다. 도움이 될 것 같습니다. – vikky
http://dumps.wikimedia.org/ 당신이 다운로드 백기가 바이트 텍스트 파일을하려고 사용해야합니다 http://www.gutenberg.org/
위키 백과는 또한 기사의 아카이브를 다운로드 할 수 있습니다 :
프로젝트 구텐베르크는 좋은 시작이 될 수 있습니다. .... – vikky
네 .. ..! 실제로 100GB 이상 .. 1TB는 우리의 목표입니다 ..! – Sri
gutenberg 전체를 하나의 7zip 파일로 가져 오기 : http://www.gutenberg-tar.com/ – JoeRocc