2011-05-12 4 views
0

동일한 Solr 스키마에서 텍스트 파일, 웹 사이트 및 데이터베이스를 어떻게 색인화합니까? 3 가지 소스 모두가 요구 사항이며이를 수행하는 방법을 파악하려고합니다. 몇 가지 예를 들었는데 서로 잘 분리되어 있기 때문에 잘 작동하고 있습니다. 사용자가 3 가지 데이터 소스를 모두 검색 할 것이기 때문에 이제는 모두 1 가지 스키마가되어야합니다.Solr에서 다른 소스를 어떻게 인덱스합니까?

어떻게해야합니까?

답변

2

당신은 당신의 콘텐츠 소스 각각에 대해 몇 가지 메모를 스케치한다 :

  • 무엇 메타 데이터를 사용할 수
  • 정보가
  • 에 액세스 얼마나
  • 어떻게 정보를 제공하고자 할

일단 완료되면 검색 할 메타 데이터를 결정하십시오. 일부는 콘텐츠 소스 중 하나 (예 : 웹 페이지의 작성자 또는 DB 행의 특정 필드)에만 한정적일 수 있으며 다른 소스 (예 : 고유 ID, 제목, 텍스트 내용). 필요에 따라 필드를 통합하려면 copy-fields을 사용하십시오.

메타 데이터는 프로젝트마다 크게 다르지만 업데이트 날짜, 파일 이름 및 텍스트 파일에서 구문 분석 할 수있는 모든 구조화 된 데이터와 같은 것들은 관련성을 높이는 데 도움이됩니다. 그 외에도 경우마다 많은 차이가 있습니다. 어쩌면 파일 경로가 메타 데이터로 사용할 수있는 (아마도 비공식적 인) 분류법에 암시 할 수 있습니다. 어쩌면 파일 이름 자체에 메타 데이터 (예 : 연도, 키워드, 제품 이름 등)가 포함되어있을 수 있습니다.

결과를 표시 할 때 다른 출처에 대해 다른 필드를 사용할 수 있도록 준비하십시오. A source 필드는 결과 타일을 만드는 관점에서 먼 길을 간다. 그리고 가장 많이 사용되는 패싯으로 판명 될 수도 있습니다.

복사 필드를 광범위하게 사용하는 대체 방법은 (아마도 선호되는) 여러 필드에서 검색을 용이하게하기 위해 DisMax/EDisMax 요청 처리기를 사용하는 것입니다.

복사 필드와 (e) dismax를 혼합하여 사용하는 것을 고려하십시오. 예를 들어, 모든 필드를 포괄 할 필요가없고 검색에 포함 시키지만 부스트 값이 낮은 포괄적 인 텍스트 필드에 복사하고 제목, 제목 또는 키워드와 같이 가중치가 큰 필드를 포함하십시오 , 또는 파일 이름). dismax에서 조정할 수있는 많은 매개 변수가 있지만 노력할 가치가 있습니다.

+0

철저한 회신에 감사드립니다. 메타 데이터 부분을 확장 할 수 있습니까? 그게 파일 이름, 생성 된 날짜 ... 등등을 의미합니까? 검색 가능한 정보는 테이블 열과 텍스트 파일 안에있는 텍스트입니다. 검색은 사용자가 키워드를 입력하는 단일 텍스트 필드를 사용하여 수행됩니다. 검색은 모든 유형의 데이터 소스를 거쳐 모든 관련 결과를 반환해야합니다. – Ali

+0

@Ali : 업데이트되었지만 실제로 dismax 요청 처리기를 살펴보면 요구 사항에 잘 맞춰야합니다. –

관련 문제