2016-08-02 8 views
0

기능을 적용하려고 할 때 tm 패키지를 처음 사용하고 장애물이 발생했습니다.tm 패키지의 TermDocumentMatrix를 만드는 중 오류가 발생했습니다.

함수가 실패 할 때까지 나는 다음과 같은 코드까지를 사용하고 있습니다 : 검사시

myCorpus <- Corpus(VectorSource(posts$message)) 
myCorpus <- tm_map(myCorpus, content_transformer(tolower)) 
myCorpus <- tm_map(myCorpus, removePunctuation) 
myCorpus <- tm_map(myCorpus, removeNumbers) 

removeURL <- function(x) gsub("http[[:alnum:]]*", "", x) 

myCorpus <- tm_map(myCorpus, removeURL) 

myStopwords <- c(stopwords("english")) 
myCorpus <- tm_map(myCorpus, removeWords, myStopwords) 

myCorpusCopy <- myCorpus 
myCorpus <- tm_map(myCorpus, stemDocument) 

이 문서의 목록 인 것처럼 보인다는해야 무엇 :

> for(i in 1:5) { 
+ cat(paste("[[", i, "]] ", sep ="")) 
+ writeLines(myCorpus[[i]]) 
+ } 
[[1]] syntel recruitment drive week freshers newregistrationlink passout graduates 
qualification graduatebebtechmcamemtech 
syntel registration link 
limited referrals available 
comment emailids reference future job upd 
[[2]] dont miss opportunity get placed one best mnc companies world ebay freshers week january 
qualification graduate can apply 
ebay registration link 
comment emailids fast beacuse referrals left 
[[3]] recent passouts  eligible apply wipro go updated link lastday reference drive jan apply link fresher referral 
apply link 
go link apply asap 
[[4]] robertbosch recruitment drive week freshers newregistrationlink passout graduates 
qualification graduatebebtechmcamemtech 
robertbosch registration link 
limited referrals available 
comment emailids reference future job upd 
[[5]] mega job openings year 
mphasis recruitment freshers january 
qualification btech bsc bca graduates mca mba mtech post graduates 
mphasis registration link 
comment emailids comment box reference future job updates emailbox  

을하지만, 만든 후 줄기 완성을위한 코퍼스의 사본, 문제가 발생합니다.

해결 방법에 대한 아이디어가 있으십니까?

답변

1

나는 당신이 TermDocumentMatrix를 사용하기 전에

myCorpus <- Corpus(VectorSource(myCorpus)) 

을 기억해야한다는 생각, 코드의 최종 부분은 다음과 같습니다

myCorpus <- tm_map(myCorpus, stemCompletion, dictionary = myCorpusCopy) 
myCorpus <- Corpus(VectorSource(myCorpus)) 
tdm <- TermDocumentMatrix(myCorpus, control = list(wordLengths = c(1, Inf))) 

하여 문서의 형태소 분석 할 때까지 오류가 발생하지 않는 경우 , 이전 지침에 따라 문제가 해결됩니다.

0

그렇지 않으면, 당신은 첫 번째 시도 할 수 있습니다 :

myCorpus <- tm_map(myCorpus, PlainTextDocument) 

를 사용하기 전에

myCorpus <- Corpus(VectorSource(myCorpus)) 
관련 문제