정규식과 일치하는 패턴에 대해 테라 바이트의 데이터를 검색하는 방법을 찾고 있습니다. 이 구현은 라인 데이터의 시작과 끝, 전체 TR1 지원 (POSIX 및/또는 PCRE 지원이 바람직 함) 등과 같이 정규 표현식의보다 정교한 많은 기능을 지원해야합니다. Google은 잠재적으로 민감한 정보의 저장과 관련된 정책을 테스트하기 위해이 애플리케이션을 효과적으로 사용하고 있습니다.패턴 (정규식) 기반 검색 시스템
색인 생성 솔루션을 살펴 보았지만 상용 스위트의 대부분은 우리가 원하는 더 자세한 정규 표현식을 지원하지 않습니다 (현재까지는 복잡한 정규 표현식을 파싱 할 때 완전히 실패했습니다. 다시 사용).
이것은 우리가 가지고있는 데이터의 양과 스캐닝 작업에 투입해야하는 시스템 자원의 양 때문에 복잡한 문제입니다 (정책 준수에 대한 검사만으로는 아닙니다. 하드웨어에 대한 예산은 그다지 많지 않습니다.)
Lucene을 살펴 봤지만 정규식 배터리를 완전히 다룰 수없는 색인 시스템을 사용하는 것에 대해서는 조금 주저하고 전체 데이터 세트를 검색하면이 문제를 해결할 수 있습니다. 서버는 적어도 몇 주 동안 이러한 작업을 수행하는 데 어려움을 겪습니다.
제안 사항?
이것은 아마도 주어진 매개 변수 내에서 가장 실용적인 해결책 일 것이며 너무 많은 사용자 개입이 필요하다는 점에 대해 너무 흥분하지는 않지만 응용 프로그램이 우리의 필요에 맞는 것처럼 보입니다. – tearman
아마도 PowerGREP를 만드는 회사에 연락하면 응용 프로그램에서 호출 할 수있는 구성 요소의 라이센스를 얻을 수 있습니다. 일반적으로 중소 규모의 소프트웨어 회사는 이와 같은 상자 기회를 수용합니다. – shadit