2017-03-22 2 views
1

"tm"패키지를 사용하여 텍스트 마이닝 용으로 R을 사용하려고합니다. 숲과 숲을 두 단어로 구분하는 주파수 그림을보십시오. 이를 수정하면 어떻게됩니까? 즉, 숲과 숲의 합계로 숲 만의 총 빈도를 선호합니다. 감사합니다 Frequency plot on R텍스트 마이닝 패키지를 사용하여 R에서 "포레스트"또는 "포리스트"중 한 단어로 단어 (포레스트, 포리 스트)를 어떻게 식별 할 수 있습니까?

+2

의 사용 가능한 복제 [R 텍스트 마이닝 - 복수형 처리 (http://stackoverflow.com/questions/34938023/r-text-mining-dealing-with-plurals) – DJack

답변

3

일종의 형태소 분석 기능을 사용할 수 있습니다. SnowballC은이 기능을 제공합니다 (wordStem 기능).

모든 줄을 줄기로 줄입니다.

stem(forests) = forest 
stem(forest) = forest 
+0

Snowball C 라이브러리 (SnowballC) > docs

+0

예상대로 작동하지 않는 경우이 스레드를 살펴보십시오. http://stackoverflow.com/questions/24311561/in-r-stemdocument-in-r – PinkFluffyUnicorn

관련 문제