0
필자는 약 2 백만 개의 텍스트 파일 모음을 가지고 있는데, 총 약 10GB의 비 압축 파일입니다. 이 컬렉션에서 "매번"또는 "청구서 클린턴"(간단한 대소 문자를 구분하지 않는 문자열 일치)처럼 보이는 문구가 포함 된 문서를 찾고 싶습니다. 퍼지 콘텐츠로 구를 찾고 싶습니다. 예 : "for * weeks".여러 파일 세트에서 문자열 및 문자열 패턴을 찾으려면 어떻게합니까?
나는 Lucene으로 색인을 시도했지만 기본적으로 색인 시간에 제거되므로 불용어를 포함하는 구문을 찾는 것은 좋지 않습니다. xargs와 grep은 느린 해결책입니다. 이 데이터 양에 대해 신속하고 적절한 것은 무엇입니까?
물론 Lucene. 어쩌면 당신은 "내가 Lucene을 가지고 이것을 어떻게 할 수 있는가?"라고 물어야 할 것입니다. –
Lucene에서 stopword processing을 꺼야합니까? 행운을 빕니다. – shellter