우선, 문서 클러스터링을 데이터 마이닝 기법으로 명시해야합니다. 워크로드 클러스터링이나 그와 유사한 것이 아닙니다. Solr의 문서 클러스터링
은 처음부터 내가 무엇을 말할 것이다 : 나는이 문서에 모든 시간을 얻을- . 그것들이 뉴스라고 가정 해 봅시다 (그것은 오히려 비슷한 것입니다).
- "뉴스"의 새로운 배치를 얻을 때마다 Solr 색인에 추가하고 해당 문서에 대한 클러스터 정보를 얻어야합니다. 이 정보를 DB에 저장하십시오 (그래서 각 문서의 클러스터를 알아야합니다).
- 클러스터 정의 서비스/프로그램이 수시로 시작될 때까지 기다릴 수는 없지만 즉시 클러스터를 정의해야합니다.
- 저는 일정 기간 동안 클러스터를 얻을 수 있기를 원합니다. 예를 들어 한 달 전에 로더 인 문서에 대해서만 클러스터를 검색하려고합니다.
- 나는 매일 수십만 개의 새로운 문서와 수천만 개의 전체 자료를 갖게 될 것입니다.
오래 전 저는 (이름 기억이 안 나는) 라이브러리를 사용했고, 입력으로 문서를 수신했으며, 결과적으로 클러스터 ID를 얻었습니다. 새 클러스터라고 생각하면 생성했습니다. 곧. 그러나 그것은 천천히 일했습니다. (그리고 그 이름도 기억이 안납니다.)
나는 Mahout에 관한 책을 찾았지만, 나는 무엇을 읽고 무엇을 원해야 하는지를 알 수 없다. Solr에 대한 자체 플러그인을 작성하지 않고 Solr/Mahout을 사용하여 수행하는 것은 불가능합니다.
이러한 시스템을 구축하는 방법에 대한 의견이나 조언을 보내 주시면 감사하겠습니다.
감사, 사전
예, 저 책을 얼마 동안 읽었지만 공유 할 경험이 필요합니다. – elgato
하지만 더 구체적으로 - 데이터가 어떻게 보이는지 - 클러스터링/분류 등을위한 정보 기반은 무엇인가? – pagid