저는 R 프로젝트와 함께 손을 더럽 히고 있습니다.텍스트 마이닝 R : 서브 사용
첫 번째 부분에서는 벡터 msg의 데이터를 정리하려고합니다. 그러나 나중에 termdocumentmatrix
을 만들면 이러한 문자가 계속 표시됩니다. 변수는 나중에 사용과 같이 코드의 첫 두 줄을 저장하지 않은
gsub("\\b\\w{1,4}\\b ", " ", pclbyshares$msg)
gsub("[[:punct:]]", "", pclbyshares$msg)
corpus <- Corpus(VectorSource(pclbyshares$msg))
TermDocumentMatrix(corpus)
tdm <- TermDocumentMatrix(corpus)
findFreqTerms(tdm, lowfreq=120, highfreq=Inf)
가'에서보세요 재현 예를 – akrun
를 제공하세요 tm_map'와'content_transformer' –