2012-06-21 3 views
2

RTextTools를 사용하여 행렬 및 모델을 사용하여 교육 세트를 작성합니다. 나중에이를 다른 문서에 적용하여 분류합니다.문서 용어 행렬에서 NaN 값을 제거하려면 어떻게해야합니까?

편집 : 매트릭스는 때때로 특정 문서와 나는 다음 행과 new_matrix 만들 때하는 문서 기간 매트릭스 오전 데 문제가

입니다

new_matrix <- create_matrix(data$document,language="english", removeNumbers=FALSE, removePunctuation=TRUE, removeStopwords=TRUE, toLower=TRUE, stemWords=TRUE, minDocFreq=1,weighting=weightTfIdf,originalMatrix=matrix) 

NaN를 얻을 수 내 자료를 손상시키는 값

corpus <- create_corpus(new_matrix,data$value, testSize=1:100,virgin=FALSE) 

오류

Error in .csr.coo(x) : NA/NaN/Inf in foreign function call (arg 4) 

NaN 값이있는 이유를 모르겠습니다. 내 생각 엔 원래 행렬이 아니라 new_matrix에있는 단어와 관련이 있다는 것입니다.

값을 결과 행렬에서 0으로 어떻게 변경할 수 있습니까?

분류 결과를 변경 하시겠습니까?

많은 도움을 주셨습니다. 감사! is.na()를 사용하여 NaN의 값을 찾을 수

+0

관련 내용 : [R은 매트릭스에서 N을 대체하십시오] (http://stackoverflow.com/q/11140650/271616). –

+0

고마워요 조슈아, 행렬에 대해서는 작동하지만 문서 용어 행렬에는 적합하지 않습니다 – JordanBelf

+2

[재현 가능한 예] (http://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example) 도움이 될 것이다. 매트릭스 ('str (new_matrix)')의 내용을 볼 수 있습니다. 은 위치와 값의 목록 일 뿐이며, 임을주의 하시고,('m <- new_matrix; i m $ i <- m $ i [i]; m $ j <- m $ j [i]; m $ v <- m $ v [i]') –

답변

3

간단한 방법 :

data<-c(1,2,NaN,4,2) 
data[is.na(data)]<-0 
data 

[1] 2 0 4 2

+0

고마워, 나는 그것을 시도했지만 내 매트릭스에 대해 작동하지 않습니다, 실행 후 출력이 동일합니다. 내 코드는 다음과 같습니다. [new_matrix [is.na (new_matrix)] <- 0. 벡터와 잘 작동하는 것 같습니다. – JordanBelf

+0

수정, 행렬에서는 작동하지만 문서 용어 행렬에서는 작동하지 않는 것 같습니다. – JordanBelf

0

1 나는 RTextTools의 리드 개발자입니다, 그리고 것 정말 감사드립니다 이 오류에 대한 예를 보내 주시면 감사하겠습니다. originalMatrix 매개 변수는 지난 2 개월 내에 도입되었으며 처리 방법에 몇 가지 지속적인 문제가있을 수 있습니다. 내 웹 사이트 (http://www.timjurka.com/)에 전자 메일을 보내실 수 있습니다.

+0

고맙습니다. 곧 내 코드로 연락 드리겠습니다! – JordanBelf

관련 문제