2012-11-26 4 views
4

텍스트에서 가장 빈번한 단어를 찾는 방법을 찾고 있는데 R을 사용하고 있습니다. 가장 자주 사용하는 단어는 빈도가 1 % 인 단어입니다. 신체. 그래서 저는 코퍼스에서 단어의 수를 계산해야합니다. 여기 코퍼스 단어 수

지금까지, 내 ​​코드입니다 : 당신이 str(mydata.dtm) 보면 nrow라는 명명 된 구성 요소가

freqmatrix <-findFreqTerms(mydata.dtm, lowfreq=rowSums(mydata.dtm)/100) 

답변

7

:

#!/usr/bin/Rscript 
library('tm') 
library('wordcloud') 
library('RColorBrewer') 
twittercorpus <- system.file("stream","~/txt", package = "tm") 
twittercorpus <- Corpus(DirSource("~/txt"), 
         readerControl=list(languageEl = "en")) 
twittercorpus <- tm_map(twittercorpus, removeNumbers) 
twittercorpus <- tm_map(twittercorpus,tolower) 
twittercorpus <- tm_map(twittercorpus,removePunctuation) 
my_stopwords <- c(stopwords("SMART")) 
twittercorpus <-tm_map(twittercorpus,removeWords,my_stopwords) 
mydata.dtm <- TermDocumentMatrix(twittercorpus) 

내가 좋아하는 뭔가를해야합니다. 용도 :

freqmatrix <- findFreqTerms(mydata.dtm, lowfreq=mydata.dtm$nrow/100)