간단한 검색 엔진을 만들고 색인을 생성 할 문서를 탐색 할 때 무시해야하는 단어를 자동으로 식별하려고합니다 (예 : "and"및 "그만큼").중지 단어를 식별하는 간단한 방법
내가 생각할 수있는 유일한 간단한 방법은 특정 길이까지의 단어를 무시하는 것입니다 (길지 않은 경우에는 중지 단어로 간주됩니다). 다른 방법으로는 데이터 마이닝 (아마도 제안에 개방적)이 필요합니다.
나는 문서를 검토 할 때 사용할 수있는 방법을 선호하지만 다른 제안에 대해서는 개방적입니다. 난 그냥 간단한 방법이 필요해.
http://nlp.stanford.edu/IR-book/html/htmledition/drawpping-common-terms-stop-words-1.html – meghamind