트윗에 대한 정서 분석을하려고합니다. 단어의 사전 처리를하고 매트릭스를 만드는 동안, 나는 다음과 같은 오류가있어 다음 14,215 트윗에서r에 줄무늬가있는 단어 : 누락 값
Error in if (any(lens > lim)) stop("There is a limit of ", lim, "characters on the number of characters in a word being stemmed") :
missing value where TRUE/FALSE needed
를, 나는 오류를 생성 한 특정 트윗에 내려 삶은하지만 어떻게 아무런 단서를 가지고 없었다 이 오류가 다시 발생하지 않도록하십시오. 오류가 발생으로 인한되는 트윗이 (그리고 코드는 오류를 재현하기 위해) :
library(RTextTools)
tweet<-"demonio leg edge sexy we get it u vape PLEASE COME TO NA SOON I HAVE A LUCIEL READY FOR U dominos"
all_tweets= create_matrix(tweet, language="english", minWordLength = 3,
removeStopwords=TRUE, removeNumbers=TRUE, # we can also removeSparseTerms
stemWords=TRUE,removePunctuation = TRUE,removeSparseTerms = 0)
내가 먼저 오류 이해하고 싶습니다 - 그것을가 발생한 후 내가 원하는 것은 저를 가능하게 할 방법 이유 이러한 트윗을 선택하거나 제거하거나 create_matrix 함수를 이와 같이 편집하여이 오류가 발생하지 않도록하십시오.
당신이 (R/RTextTools 패키지를) 할 버전 안녕하세요. 여기에 Windows 64, R 3.2.2 및 RTextTools 1.4.2에서 제공 한 텍스트에 오류가 재현되지 않습니다. –
R 버전 3.3.0 및 RTextTools 1.4.2 – user3109578
로케일 또는 인코딩 문제 일 수 있습니다. @lukeA 제안도 가능성이 보인다. 어쨌든 이상하게도 코드가 매력처럼 작동합니다. –