Lucene에서 엔티티 추출 (더 많은 일치와 같음)을 시도합니다. 다음은 샘플 워크 플로입니다.Lucene에서 엔티티 추출을 수행하는 방법
일부 텍스트 (URL에서)와 사람 이름을 나열하면 텍스트에서 사람의 이름을 추출해보십시오.
참고 : 사람들의
이름은 완전히 정상화되지 않습니다. 예 : X 씨, Mrs. X, Mrs. Y 및 일부는 John Doe, X 및 Y입니다. 에 대해 생각할 수있는 다른 접두사 및 접미사는 Jr., Sr., Dr. I, II ... 등입니다 (비 미국 이름으로 시작하지 마세요.)
나는 각 URL에서 텍스트 (HTML 태그를 제거) 및 메모리 인덱스의이 (한 번에 모든 이름, 하나의 목록 100,000 이름을 조회 할 수 StandardAnalyzer를 사용하고 만들 루씬 MemoryIndex을 사용하고,인가 이 작업을 수행 할 수있는 다른 방법이 있습니까? 평균 평균 텍스트에는 약 8 초가 소요됩니다.)
큰 문제는 기본 점수로 0.01의 점수를 사용하고 "John Doe"와 같은 쿼리는 "John Doe"와 비교할 때 "John Doe "이고 대부분의 경우 0.01 임계 값을 놓친다.
다른 문제는 모든 이름을 표준화하고 Dr. Mrs. Mrs. 등의 모든 사건을 제거하기 시작하면 "Dr. John Edward II"와 같은 좋은 성냥이 보이지 않아 많은 정크 "John Edward"와 일치합니다.
나는 Lucene이 그 일에 적합한 도구가 아닐지도 모른다는 것을 알았지 만, 지금까지는 너무 나쁘지는 않았다. 어떤 도움을 주셔서 감사합니다.
우리는 문을 해봤지만 같은으로 실행 ... 너무 DBPedia - 스포트 라이트 웹 서비스를 사용할 수 있습니다 일종의 문제. 높은 위양성. 이것은 반드시 나쁜 것은 아니지만 가능한 한 많이 조정할 것을 다시 시도합니다. – ankimal
글쎄, 우리 중 일부는 돈을 위해 물건을 판매하는 이유가 있습니다. 상업용 솔루션에 관심이 있으시면 그 취지에 대한 의견을 보내 주시면 연락 드리겠습니다. – bmargulies