2012-10-29 3 views
0

모두!lucene을 사용하여 하나의 이력서에서 정보를 추출하는 방법

나는 Lucene에게 신선한 사람이다.

그리고 lucene을 사용하여 이력서 필터 프로젝트를 진행하고 있습니다. 첫째로 이력서에서 목요일과 같은 기본적인 정보를 추출하고 싶습니다.

생일은 1989/10/19 또는 이와 비슷한 것으로 항상 한 줄로 있다고 가정합니다. 정규 표현식을 직접 사용하는 대신 Lucene을 사용하여 어떻게 이런 종류의 정보를 추출 할 수 있습니까?

현재 SpanNearQuery를 사용하면 도움이 될 것입니다. 하지만 SpanNearQuery에 WildcardQuery를 추가하여 생일 정보를 일치시킬 수없는 것으로 보입니다.

나는 완전히 갇혔다. 좋은 제안이야? 정말 감사합니다!

+0

Lucene에는 Regex 쿼리가 지원됩니다. – Mikos

답변

1

Lucene 필드에서 텍스트 묶음과 그 안에 날짜 형식을 포함하는 날짜를 추출하는 마술 총알은 없습니다. 가장 좋은 방법은 색인 생성 과정에서 용어를 분리하고 숫자로 숫자를 식별 할 수있는 맞춤 분석기를 작성하는 것입니다.

나는 루신 (Lucene)을위한 몇 개의 분석기를 썼지 만, 그와 같은 것은 정말로 사소한 것이 아닙니다 ... 특히 당신이 루신을 처음 접한다면.

관련 문제