2013-04-24 4 views
1

txt 파일을 읽고 텍스트 마이닝 방식을 사용하고 싶습니다. R에서 tm 패키지를 사용했을 때 많은 오류 메시지가 나타났습니다. 예를 들어 가장 빈번한 단어를 상호 연관 시키려면 NA 만 얻었습니다. 여기 코드는, 내가 지금까지 사용하고있다 : 그 후txt 파일은 R 패키지에서 NA를 생성합니다. tm (textmining)

library(tm) 

doc <- c("word1 word1 word2 word1 word2 word3 word1 word2 word3 word4 word1 word2 word3 word4 word5") 

Corpus <- Corpus(VectorSource(doc)) 
Corpus <- tm_map(Corpus, stripWhitespace) 
Corpus <- tm_map(Corpus, tolower) 
Corpus <- tm_map(Corpus, removeWords, stopwords("english")) 
Corpus <- tm_map(Corpus, removePunctuation) 

tdm <- TermDocumentMatrix(Corpus) 

#Plotting correlation of Terms 
plot(tdm, terms = findFreqTerms(tdm, lowfreq = 2, Inf)[1:3], CorThreshold = 0.1) 

을, 나는 다음과 같은 오류 메시지를 받았습니다 :

Error in if (all(from == t(from))) "undirected" else "directed": 
missing value where TRUE/FALSE needed 

오케이 , 내 관점에서

  word1 word2 word3 
    word1 NA NA NA 
    word2 NA NA NA 
    word3 NA NA NA 

: 나는 다음과 같은 출력을 가지고, 그러나

terms <- findFreqTerms(tdm, lowfreq = 2)[1:3] 
m <- as.matrix(t(tdm[terms,])) 
m 
cor(m) 

: 조사, 나는 findAssocs의 단계별 접근 방법을()는 다음 코드를 사용 텍스트에 문제가 있지만이 이상한 행동에 대한 설명이 없습니다. 내 질문은, 누군가가이 문제에 대한 해결책을 가지고 있다면. 내 R (2.15.2)은 Mac 시스템 (x86_64-apple-darwin9.8.0/x86_64 (64 비트))에서 실행됩니다.

고맙습니다.

+0

참조 [이] (http://stackoverflow.com/questions/13575180/how-to-change-the-language-of- 당신의 행렬 m에보고하여 확인하실 수 있습니다 errors-in-r)를 사용하여 언어 오류를 영어로 변경하십시오. – agstudy

답변

0

상관 분석 함수 cor()에 대해서는 각 변수에 대해 하나의 관찰 만 있기 때문에 NA 값의 행렬을 얻습니다. 변수에 하나의 관찰 만있는 경우 상관 관계를 설정할 수 없습니다.

당신은

> m 
    Terms 
Docs word1 word2 word3 
    1  5  4  3 
+0

O.k. 다시 말하면, 텍스트를 벡터 하나의 문장과 같은 여러 문서로 분리해야한다는 것입니까? – user2314393

+0

그게 전부 야! 다시 한번 고마워요. 나는 한 텍스트 내에서 상관 관계가 가능할 것이라고 생각했다. 불행히도, 이것은 tm의 경우는 아닙니다. 그렇지 않습니까? 상관 관계가 있습니다. – user2314393

관련 문제