다른 기능을 테스트하기 위해 Lucene/Solr 4를 실행했으며 "클러스터링"도 수행했습니다. 현재 1 백만 개의 문서가 색인 생성됩니다. 모든 문서에는 다음과 같은 필드가 있습니다.(당근) 클러스터링은 어떻게 작동합니까?
ID (unique Key) Example1: 10245
Example2: 24974
TOPIC (Keywords of the document) Example1: "disaster/japan/nuclear power station"
Example2: "world/japan/nuclear power"
HEADLINE (1 line of text): Example1: "explosion at nuclear power plant in japan"
Example2: "news about japans nuclear power plant"
TEXT (the full text): "In the Japanese nuclear power plant in Fukushima..."
모든 필드는 색인이 생성되고 저장되며, 색인이 생성되고 저장되지 않는 exapt TEXT가 저장됩니다. 나는 다음과 같은 특정 구성 사용 : 당신은 당신이 볼 수있는 예를 찾는 경우 주제는 다르지만, 일본이 동일한 지,
<str name="carrot.title">TOPIC</str>
<str name="carrot.snippet">HEADLINE</str>
합니다. 이런 식으로 solr/carrot을 구성 할 수 있습니까? example1과 example2가 하나의 클러스터에 포함됩니까? 일치하는 "japan"때문에?!
"뉴스/원자력"과 같은 3 번째 TOPIC가있을 수 있지만 내부에는 "japan"가 없지만 HEADLINE 및 TEXT에서는 japans 발전소를 사용하고 있습니다. 하나의 클러스터에서 3 가지 뉴스를 수신하려면 어떤 solr/carrot 구성이 적절한가요?
감사합니다.
감사합니다. 재미있는 아이디어가 많이 있습니다. 시도해 보겠습니다. –