2013-12-13 3 views
4

를 계산 RWeka를 사용할 수없는, 내가 사전 목록에 대해 DocumentTermMatrix을 비교하고있어 합계를 계산하려면 두 단어를 포함하고이를 수행하는 방법을 알아낼 수 없습니다.오류 TM를 사용하여 문구

TrigramTokenizer <- function(x) NGramTokenizer(x, 
               Weka_control(min = 3, max = 3)) 
tdm <- TermDocumentMatrix(v.corpus, 
          control = list(tokenize = TrigramTokenizer)) 

그러나 다음과 같은 오류 메시지가 얻을 :

나는 RWeka을 시도

Error in simple_triplet_matrix(i = i, j = j, v = as.numeric(v), nrow = length(allTerms), : 
    'i, j, v' different lengths 
In addition: Warning messages: 
1: In parallel::mclapply(x, termFreq, control) : 
    all scheduled cores encountered errors in user code 
2: In is.na(x) : is.na() applied to non-(list or vector) of type 'NULL' 
3: In simple_triplet_matrix(i = i, j = j, v = as.numeric(v), nrow = length(allTerms), : 
    NAs introduced by coercion. 

당신이 오류 메시지와 함께 도와 줄 수 있습니까?를

감사합니다.

+0

과 같아야합니다 (http://stackoverflow.com/q/18504559/1036500)? – Ben

+0

[최소 작업 예제] (http://stackoverflow.com/help/mcve)가 없으므로 투표를 끝내기로 결심했습니다. –

답변

2

here

병렬 패키지와 함께 RWeka을 사용하여 문제가있는 것 같은데 내 대답을 참조하십시오. http://r.789695.n4.nabble.com/RWeka-and-multicore-package-td4678473.html#a4678948

가장 중요한 점은 RWeka 패키지를 로딩하고 캡슐화 된 함수에서 네임 스페이스를 사용하지 않는 : 나는 이 솔루션 here.

1를 해결 발견했다.

그래서 당신의 토크 나이는 답변 [여기]의 일부를 시도

BigramTokenizer <- function(x) {RWeka::NGramTokenizer(x, RWeka::Weka_control(min = 2, max = 2))}