2011-02-24 2 views

답변

1

조치가 필요 유사성은 쿼리을 기반으로합니다. 즉 Lucene 문서 집합을 쿼리하면 상대적 점수가있는 문서 집합이 반환됩니다.

모든 문서를 다른 문서와 비교하려면 (질문과 구분하기가 어렵습니다) 각 문서의 기능을 쿼리의 기초로 사용해야합니다.

예를 들어, 각 문서에서 상위 N 개 항목 (빈도 별, 정지 단어 제외)을 추출 할 수 있습니다. X 문서가 있으면 X 쿼리가 생깁니다. 그런 다음 인덱스에 대해 각각의 X 쿼리를 실행하면 각 문서의 상대 유사도가 서로 겹치게됩니다. 이것은 분류에 사용할 수있는 매트릭스입니다.

또 다른 대안은 각 문서의 제목 또는 개요를 쿼리의 기초로 사용하는 것입니다 (다시 말하면 정류장 제외).

+0

감사합니다. 내가 의미하는 바를 완전히 이해했습니다. 그렇다면 각 문서에 대한 쿼리를 실행해야합니까? 결과를 분류 자에게 전달하기 위해 구조화 된 파일에 저장합니다. – aneuryzm

+0

저는 실제로 구조화 된 XML 입력과 설명, 태그, 각 문서에 대한 위치 정보를 가지고 있습니다. 설명을 위해 나는 tf.idf 코사인 유사성을 사용할 것이며, 지오 태그에 대해 하베 신 유사성을 구현해야합니다. 그런 유사성 메트릭을 통합하는 방법을 정확히 모르겠다. Lucene에서 구현해야하는 tf.idf 만 사용하겠다. 튜토리얼을 알고 있다면 ... Lucene에 대한 경험이 없기 때문에 매우 환영합니다. – aneuryzm

+0

Lucene의 기본 스코어링 기능은 tdf.if와 코사인 유사성을 사용하므로 상자에서 바로 사용할 수 있습니다. 당신은 그것을 사용자 정의 할 수 있습니다. http://lucene.apache.org/java/2_4_0/scoring.html 및 http://lucene.apache.org/java/2_4_0/api/org/apache/lucene/search/Similarity.html – Joel

관련 문제