나는 R의 tm
패키지를 사용하여 분류 문제에 많은 성공을 거뒀습니다. 나는 전체 자료 (findFreqTerms()
)를 통해 가장 빈번한 용어를 찾는 법을 알고 있지만 가장 빈번한 용어를 발견 할 수있는 문서 내에서는 아무것도 볼 수 없다. (나는 스톱 어라운드를 제거하고 스톱 어를 제거한 후에 스파 스 용어를 삭제하기 전에)를 코퍼스의 개별 문서에 저장합니다. apply()
및 max
명령을 사용하여 시도했지만이 때문에 각 문서에서 용어 자체의 이름이 아닌 최대 횟수가 표시됩니다.코퍼스의 각 문서에서 가장 자주 찾는 용어
library(tm)
data("crude")
corpus<-tm_map(crude, removePunctuation)
corpus<-tm_map(corpus, stripWhitespace)
corpus<-tm_map(corpus, tolower)
corpus<-tm_map(corpus, removeWords, stopwords("English"))
corpus<-tm_map(corpus, stemDocument)
dtm <- DocumentTermMatrix(corpus)
maxterms<-apply(dtm, 1, max)
maxterms
127 144 191 194 211 236 237 242 246 248 273 349 352
5 13 2 3 3 10 8 3 7 9 9 4 5
353 368 489 502 543 704 708
4 4 4 5 5 9 4
생각 나게하기?
넥타이에 관한 좋은 지적, 맞아. – Ben
동의 함. 벤, 네가 괜찮다면 나는이 대답을 받아 들일 것이다. – Bryan