일부 불균일 한 텍스트 데이터를 파싱하는 루비 파서를 개발 중입니다. 아무도 말해 줄 수있는 곳이 어디 있습니까? 여기파싱 실험을위한 많은 양의 일반 텍스트 데이터
답변
는 많은 사람들의 목록을 얻을 것입니다 :
http://www.quora.com/Data/Where-can-I-get-large-datasets-open-to-the-public
을 그리고 내 즐겨 찾기는 다음과 같습니다
http://ftp.sunet.se/mirror/archive/ftp.sunet.se/pub/tv+movies/imdb/
는당신은 Wikipedia이 (또는 그것의 무리를 통해 실행 긁어 수 lynx -dump
). 그러면 영어 이외의 텍스트도 많이 볼 수 있습니다. Project Gutenberg은 많은 양의 일반 텍스트를 제공하는 또 다른 좋은 소스입니다.
+1 구텐베르크. – Phrogz
@Phrogz : 나는 "팜 파일럿 (Palm Pilot)과 버스에서 통근하는"날에 구텐베르크 중독자였습니다. –
Project Gutenberg는 매우 엄격한 봇 정책으로, 하루에 동일한 IP 주소에서 100 번 이상 방문 할 수 없습니다. –
- 1. 많은 양의 텍스트 파일보기
- 2. 많은 텍스트 파일의 많은 양의 데이터 - 처리 방법은 무엇입니까?
- 3. 많은 양의 텍스트 구문 분석
- 4. PHP에서 많은 양의 데이터 전달하기
- 5. 코어 데이터에 많은 양의 텍스트 저장하기
- 6. iPhone plist 데이터, 많은 양의 텍스트 및 돌아 가기 키?
- 7. 정규식을 사용하여 많은 양의 데이터 가져 오기
- 8. iPhone SDK : 많은 양의 텍스트 저장
- 9. 많은 양의 텍스트 데이터를 HTML 형식으로 입력하십시오.
- 10. 많은 양의 텍스트 - mysql 또는 flatfile?
- 11. 많은 양의 데이터와 이미지를
- 12. 많은 양의 텍스트를 메모리에 저장합니다.
- 13. SQL Server 2005에서 많은 양의 데이터 삭제
- 14. 많은 양의 시공간 데이터 저장 및 처리
- 15. PHP/mysql에서 많은 양의 데이터 다루기
- 16. 3 티어 패턴과 많은 양의 데이터
- 17. 많은 양의 제 3 자 데이터 전달
- 18. NoSQL과 많은 양의 데이터 색인에 대한 의견?
- 19. 페이징 많은 양의
- 20. 텍스트 영역에서 많은 양의 POST 데이터를 처리하는 방법은 무엇입니까?
- 21. sqlsrvr.exe는 많은 양의 메모리를 사용합니다.
- 22. 많은 양의 데이터를 웹 서비스에 전달하는 방법
- 23. POST에서 FCKEditor가 많은 양의 내용을 잃었습니다.
- 24. jQuery가 포함 된 HTML 테이블에서 많은 양의 데이터 필터링하기
- 25. 많은 양의 데이터로드에 대한 도움
- 26. 많은 양의 텍스트 데이터를 저장하는 가장 좋은 방법은 무엇입니까?
- 27. 데이터 피드 파싱
- 28. C#으로 많은 양의 데이터를 저장하려면 어떻게해야합니까?
- 29. QtCreator : 많은 양의 오류가 있습니다.
- 30. MATLAB에서 많은 양의 구조체 다루기
amazon us-east-1d가있는 한 : – Wes