2009-07-08 3 views
5

중 Generatings 태그를이 질문은 전에 꽤 많은 시간을 요구하고있다. 나는 "텍스트 분석"우연히 기존 솔루션으로이 문제에 접근하려고용어 추출 : <a href="http://developer.yahoo.com/search/content/V1/termExtraction.html" rel="nofollow noreferrer">http://developer.yahoo.com/search/content/V1/termExtraction.html</a></p> <p>과 같은 결과를 얻을하는 방법 텍스트

SOLR은 인덱싱 전에 문서에 수행 http://wiki.apache.org/solr/AnalyzersTokenizersTokenFilters에 설명되어 있습니다. 여기에는 형태소 분석도 포함됩니다.

그래서 최종 색인은 대부분 문서를 설명하는 데 사용되는 용어로 구성됩니다.

분석기, 토큰 라이저 및 토큰 필터를 직접 사용할 수있는 솔루션이 있습니까? solr이 빠져 나오면 solr의 인덱스에서이 데이터를 얻는 가장 좋은 방법은 무엇입니까?

답변

4

Solr은 맞춤 검색 엔진을 만드는 방법입니다. 그것은 직업에 적합한 도구로 보이지 않습니다. Wikipedia article about term extraction은 "외부 링크"섹션에 용어 추출을위한 여러 웹 응용 프로그램을 나열합니다. OpenNLP에는 유용한 도구 목록이 있습니다. Its Chunker이 도움이 될 수 있습니다.

+0

예, Solr 용어는 고유 토큰 (일부 일반적인 단어를 제외하고 형태소 분석 등) 만 반환합니다. 실제로 텍스트에서 중요한 부분을 알려주지는 않습니다. 가치가있는 부분에 대해서는 http://wiki.apache.org/solr/TermsComponent를 통해 solr의 조건을 빠뜨릴 수 있습니다. – mlathe

0

예를 들어.

http://localhost:8983/solr/terms?terms.fl=text&terms.sort=count&terms.limit=-1 

더 많은 정보를 원하시면 TermsComponent 를 참조하십시오.

관련 문제