RTextTools를 사용하여 행렬 및 모델을 사용하여 교육 세트를 작성합니다. 나중에이를 다른 문서에 적용하여 분류합니다.문서 용어 행렬에서 NaN 값을 제거하려면 어떻게해야합니까?
편집 : 매트릭스는 때때로 특정 문서와 나는 다음 행과 new_matrix
만들 때하는 문서 기간 매트릭스 오전 데 문제가
입니다
new_matrix <- create_matrix(data$document,language="english", removeNumbers=FALSE, removePunctuation=TRUE, removeStopwords=TRUE, toLower=TRUE, stemWords=TRUE, minDocFreq=1,weighting=weightTfIdf,originalMatrix=matrix)
좀 NaN
를 얻을 수 내 자료를 손상시키는 값
corpus <- create_corpus(new_matrix,data$value, testSize=1:100,virgin=FALSE)
오류
Error in .csr.coo(x) : NA/NaN/Inf in foreign function call (arg 4)
좀 NaN
값이있는 이유를 모르겠습니다. 내 생각 엔 원래 행렬이 아니라 new_matrix에있는 단어와 관련이 있다는 것입니다.
값을 결과 행렬에서 0으로 어떻게 변경할 수 있습니까?
분류 결과를 변경 하시겠습니까?
많은 도움을 주셨습니다. 감사! is.na()를 사용하여 NaN의 값을 찾을 수
관련 내용 : [R은 매트릭스에서 N을 대체하십시오] (http://stackoverflow.com/q/11140650/271616). –
고마워요 조슈아, 행렬에 대해서는 작동하지만 문서 용어 행렬에는 적합하지 않습니다 – JordanBelf
[재현 가능한 예] (http://stackoverflow.com/questions/5963269/how-to-make-a-great-r-reproducible-example) 도움이 될 것이다. 매트릭스 ('str (new_matrix)')의 내용을 볼 수 있습니다. 은 위치와 값의 목록 일 뿐이며, 임을주의 하시고,('m <- new_matrix; i m $ i <- m $ i [i]; m $ j <- m $ j [i]; m $ v <- m $ v [i]') –