15,000 개가 넘는 텍스트 문서가있는 자료가 있습니다. removeSparseTerms 기능이 작동하지 않습니다 내가 희소성을 감소 할 수있는 뭔가가코퍼스가 큰 문서 용어 행렬의 희소성을 줄이는 방법 (R)
colTotals<- col_sums(dtm)
dtm2 <- dtm[,which(colTotals>20)]
dtm2
<<DocumentTermMatrix (documents: 15095, terms: 1387)>>
Non-/sparse entries: 100867/20835898
Sparsity : 100%
Maximal term length: 26
Weighting : term frequency (tf)
있습니까 :
dtm
<<DocumentTermMatrix (documents: 15095, terms: 12811)>>
Non-/sparse entries: 140286/193241759
Sparsity : 100%
Maximal term length: 37
Weighting : term frequency (tf)
dtms <- removeSparseTerms(dtm, 0.1)
dtms
<<DocumentTermMatrix (documents: 15095, terms: 0)>>
Non-/sparse entries: 0/0
Sparsity : 100%
Maximal term length: 0
Weighting : term frequency (tf)
내가 또한 일을 일부러하는이 시도? 저는 엑셀에서 주파수 시트를 열 수 있기를 원합니다. 그리고 지금은 열 수 없기 때문에 너무 많은 메모리가 필요합니다. 그래서 내가 희소성을 줄이려고합니다.