2012-10-24 1 views
0

알고리즘 테스트에 사용할 수있는 온라인 샘플 텍스트가 있는지 궁금합니다. 예를 들어, 간단한 토큰 화 기능을 사용하고 중간 단어 구두점 문자 ("do not", "O'Brien"), 대시 (예 : "Sacksville")와 같은 특별한 경우에 작동하는지 확인하려고합니다. -Bagginses "는 단일 토큰이어야 함), 국제 문자 등이 필요합니다.텍스트 처리 기능을 테스트하기위한 샘플 데이터 또는 자료실?

마찬가지로 다른 알고리즘을 사용하여 문서를 손쉽게 테스트 할 수 있습니다. 또는 구텐베르크에서 좋은 샘플 텍스트를 검색 할 수 있습니다.

또한 유용 등 맞춤법 & 문법 도구 같은 테스트 것들에 사용될 수 텍스트가 될 것이다

+0

[Lucene] (http://lucene.apache.org/core/)의 초보자 용 토큰 화기 및 분석기 단위 테스트를 살펴 보려고합니다. – amit

+0

이 질문은 http://opendata.stackexchange.com/ –

답변

관련 문제