2012-02-07 2 views
13

가능한 중복 :
Looking for dataset to test FULLTEXT style searches on방대한 양의 텍스트 파일을 어디에서 찾을 수 있습니까?

내가 테스트를 위해 일반 텍스트 100 GB의 필요가있는 데이터 마이닝의 프로젝트에에 최근에 나는 ... 나는 검색의 피곤 그물 하루 종일. 누군가 나 같은 텍스트 파일을 다운로드 할 수있는 링크를 제공하여 나를 도와주세요. 감사.

+1

http://dumps.wikimedia.org/ 당신이 다운로드 백기가 바이트 텍스트 파일을하려고 사용해야합니다 http://www.gutenberg.org/

위키 백과는 또한 기사의 아카이브를 다운로드 할 수 있습니다 :

프로젝트 구텐베르크는 좋은 시작이 될 수 있습니다. .... – vikky

+0

네 .. ..! 실제로 100GB 이상 .. 1TB는 우리의 목표입니다 ..! – Sri

+0

gutenberg 전체를 하나의 7zip 파일로 가져 오기 : http://www.gutenberg-tar.com/ – JoeRocc

답변

8

어떤 유형의 텍스트를 검색 하시나요? 대화, 기사, 책 - 또는 모든 것의 좋은 보급? http://en.wikipedia.org/wiki/Wikipedia:Database_download

+0

예 ... anykind의 텍스트 파일은 Okay ... yes입니다. 대화, 기사, 다큐멘터리, 소설 등 ...! – Sri

+0

Project Gutenberg가 가장 좋은 방법 일 것입니다. 38,000 개 이상의 무료 책이 있습니다. 대부분은 일반 텍스트 파일로 다운로드 할 수 있습니다. – Jordan

+0

더 좋은 방법이 있습니까 ... 각 텍스트 파일을 하나씩 다운로드하는 대신 .. 크기가 1GB의 압축 파일을 얻을 수 있습니까 ?? – Sri

3

당신이

+1

제발 나에게 구체적인 링크를 제공 할 수 있습니다 ..! n 230GB 정도되는 XML 형식의 압축 파일을 보았습니다. Heres 링크 .. http://en.wikipedia.org/wiki/Wikipedia:Database_download .. 다운로드하기 전에 내가 정확히 그 안에 무엇이 있는지 알고 싶습니다 .. ps : 우리는 의미있는 텍스트 파일을 찾고 있습니다. 텍스트 ... 대화, 다큐멘터리 등 ...! – Sri

+0

그것은 실제로 Wikimedia의 덤프 파일의 덤프 파일입니다. 일반적으로 XML 형식의 Wikipedia 기사가 포함되어 있습니다. 확인할 수 있습니다. 도움이 될 것 같습니다. – vikky

관련 문제