2013-10-19 4 views
0

간단한 검색 엔진을 만들고 색인을 생성 할 문서를 탐색 할 때 무시해야하는 단어를 자동으로 식별하려고합니다 (예 : "and"및 "그만큼").중지 단어를 식별하는 간단한 방법

내가 생각할 수있는 유일한 간단한 방법은 특정 길이까지의 단어를 무시하는 것입니다 (길지 않은 경우에는 중지 단어로 간주됩니다). 다른 방법으로는 데이터 마이닝 (아마도 제안에 개방적)이 필요합니다.

나는 문서를 검토 할 때 사용할 수있는 방법을 선호하지만 다른 제안에 대해서는 개방적입니다. 난 그냥 간단한 방법이 필요해.

+0

http://nlp.stanford.edu/IR-book/html/htmledition/drawpping-common-terms-stop-words-1.html – meghamind

답변

1

짧은 대답은 이 아닙니다. 에서처럼 성가 시게하지 말고, 대신 질문에서 빼내거나 TF-IDF에 의해 적절히 무게를 잰다. 인덱싱 중 - - 중지 단어 그것은 언어의 아주 흔한 단어를 폐기 IR 시스템을 설정하는 전통적인있다 http://xapian.org/docs/stemming.html

:

Xapian 매뉴얼을 인용. 보다 현대적인 접근 방법은 모든 것을 색인화하는 것입니다. 예를 들어 구문을 검색하는 데 큰 도움이됩니다. 그런 다음 검색의 선택적 스타일로서 여전히 스톱 워드를 쿼리에서 제거 할 수 있습니다. 어느 경우 든 언어에 대한 불용어 목록이 유용합니다.

스톱 워드 목록을 얻으려면 빈도별로 언어에 대한 텍스트 코퍼스를 정렬하고 삭제할 단어를 선택하여 목록을 작성하십시오.

관련 문제