2011-10-25 2 views
1

mysql 데이터베이스에서 문서를 가져 와서 solr에 넣는 색인 프로세스가 있습니다.사전에 대한 단어 수 생성

맞춤법 교정을 위해 각 단어의 발생 횟수를 기록하고 싶습니다.

분명히 파일을 모두 하나의 일반 텍스트 파일로 덤프 할 수 있습니다. 그 다음 sort | uniq -c 파일을 읽고 모든 단어를 일부 N 이상으로 유지하십시오. 이동하는 방법인지 아니면 더 똑똑한 방법입니까?

답변

1

SOLR에는 패싯이 있습니다. 관심있는 텍스트 데이터를 저장하는 필드를 가리키는 facet.field를 사용하여 패싯 검색을 실행해볼 수 있습니다. facet.mincount를 사용하여 특정 주파수 레벨에서 출력리스트를자를 수 있습니다. facet.zeroes = false를 설정하여 가능한 빈도 목록에서 0을 제외하십시오.