2011-09-23 4 views
0

필자는 약 2 백만 개의 텍스트 파일 모음을 가지고 있는데, 총 약 10GB의 비 압축 파일입니다. 이 컬렉션에서 "매번"또는 "청구서 클린턴"(간단한 대소 문자를 구분하지 않는 문자열 일치)처럼 보이는 문구가 포함 된 문서를 찾고 싶습니다. 퍼지 콘텐츠로 구를 찾고 싶습니다. 예 : "for * weeks".여러 파일 세트에서 문자열 및 문자열 패턴을 찾으려면 어떻게합니까?

나는 Lucene으로 색인을 시도했지만 기본적으로 색인 시간에 제거되므로 불용어를 포함하는 구문을 찾는 것은 좋지 않습니다. xargs와 grep은 느린 해결책입니다. 이 데이터 양에 대해 신속하고 적절한 것은 무엇입니까?

+0

물론 Lucene. 어쩌면 당신은 "내가 Lucene을 가지고 이것을 어떻게 할 수 있는가?"라고 물어야 할 것입니다. –

+0

Lucene에서 stopword processing을 꺼야합니까? 행운을 빕니다. – shellter

답변

0

당신은 postgreSQL 데이터베이스를 사용할 수 있습니다. 전체 텍스트 검색 구현이 있으며 사전을 사용하여 자신 만의 중지 단어를 정의 할 수 있습니다. 많은 도움이되는지는 모르겠지만 시도해 보겠습니다.

관련 문제