2012-09-12 2 views
0

우선, 문서 클러스터링을 데이터 마이닝 기법으로 명시해야합니다. 워크로드 클러스터링이나 그와 유사한 것이 아닙니다. Solr의 문서 클러스터링

은 처음부터 내가 무엇을 말할 것이다 : 나는이 문서에 모든 시간을 얻을

  • . 그것들이 뉴스라고 가정 해 봅시다 (그것은 오히려 비슷한 것입니다).
  • "뉴스"의 새로운 배치를 얻을 때마다 Solr 색인에 추가하고 해당 문서에 대한 클러스터 정보를 얻어야합니다. 이 정보를 DB에 저장하십시오 (그래서 각 문서의 클러스터를 알아야합니다).
  • 클러스터 정의 서비스/프로그램이 수시로 시작될 때까지 기다릴 수는 없지만 즉시 클러스터를 정의해야합니다.
  • 저는 일정 기간 동안 클러스터를 얻을 수 있기를 원합니다. 예를 들어 한 달 전에 로더 인 문서에 대해서만 클러스터를 검색하려고합니다.
  • 나는 매일 수십만 개의 새로운 문서와 수천만 개의 전체 자료를 갖게 될 것입니다.

오래 전 저는 (이름 기억이 안 나는) 라이브러리를 사용했고, 입력으로 문서를 수신했으며, 결과적으로 클러스터 ID를 얻었습니다. 새 클러스터라고 생각하면 생성했습니다. 곧. 그러나 그것은 천천히 일했습니다. (그리고 그 이름도 기억이 안납니다.)

나는 Mahout에 관한 책을 찾았지만, 나는 무엇을 읽고 무엇을 원해야 하는지를 알 수 없다. Solr에 대한 자체 플러그인을 작성하지 않고 Solr/Mahout을 사용하여 수행하는 것은 불가능합니다.

이러한 시스템을 구축하는 방법에 대한 의견이나 조언을 보내 주시면 감사하겠습니다.

감사, 사전

답변

0

에 당신이 사용자 정의 SOLR 플러그인의 모든 유형을 필요가 있다고 생각하지 않습니다. 새 문서의 경우 분류은 "뉴스"의 일반적인 인덱싱 프로세스 중에 결정될 수 있으므로 모든 Solr 문서에 일반 필드로 추가 할 수 있습니다.

Mahout을 사용하여 클러스터링 및 분류에 관해서라면 Mahout in Action 책은 좋은 자료라고 할 수 있습니다.

건배.

+0

예, 저 책을 얼마 동안 읽었지만 공유 할 경험이 필요합니다. – elgato

+0

하지만 더 구체적으로 - 데이터가 어떻게 보이는지 - 클러스터링/분류 등을위한 정보 기반은 무엇인가? – pagid

0

오히려 오래된 게시물인데, 그럼에도 불구하고 응답 해 주시기 바랍니다. 당신은 solr 결과 클러스터링을 위해 carrot2 http://project.carrot2.org/index.html을 사용할 수 있습니다. 이것은 항상 비행 중에 있습니다.