중 Generatings 태그를이 질문은 전에 꽤 많은 시간을 요구하고있다. 나는 "텍스트 분석"우연히 기존 솔루션으로이 문제에 접근하려고용어 추출 : <a href="http://developer.yahoo.com/search/content/V1/termExtraction.html" rel="nofollow noreferrer">http://developer.yahoo.com/search/content/V1/termExtraction.html</a></p> <p>과 같은 결과를 얻을하는 방법 텍스트
- 는
SOLR은 인덱싱 전에 문서에 수행 http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters에 설명되어 있습니다. 여기에는 형태소 분석도 포함됩니다.
그래서 최종 색인은 대부분 문서를 설명하는 데 사용되는 용어로 구성됩니다.
분석기, 토큰 라이저 및 토큰 필터를 직접 사용할 수있는 솔루션이 있습니까? solr이 빠져 나오면 solr의 인덱스에서이 데이터를 얻는 가장 좋은 방법은 무엇입니까?
예, Solr 용어는 고유 토큰 (일부 일반적인 단어를 제외하고 형태소 분석 등) 만 반환합니다. 실제로 텍스트에서 중요한 부분을 알려주지는 않습니다. 가치가있는 부분에 대해서는 http://wiki.apache.org/solr/TermsComponent를 통해 solr의 조건을 빠뜨릴 수 있습니다. – mlathe