코퍼스가 큰 문서 용어 행렬의 희소성을 줄이는 방법 (R)

15,000 개가 넘는 텍스트 문서가있는 자료가 있습니다. removeSparseTerms 기능이 작동하지 않습니다 내가 희소성을 감소 할 수있는 뭔가가코퍼스가 큰 문서 용어 행렬의 희소성을 줄이는 방법 (R)

colTotals<- col_sums(dtm) 
dtm2 <- dtm[,which(colTotals>20)] 
dtm2 

<<DocumentTermMatrix (documents: 15095, terms: 1387)>> 
Non-/sparse entries: 100867/20835898 
Sparsity   : 100% 
Maximal term length: 26 
Weighting   : term frequency (tf)

있습니까 :

dtm 

<<DocumentTermMatrix (documents: 15095, terms: 12811)>> 
Non-/sparse entries: 140286/193241759 
Sparsity   : 100% 
Maximal term length: 37 
Weighting   : term frequency (tf) 

dtms <- removeSparseTerms(dtm, 0.1) 
dtms 

<<DocumentTermMatrix (documents: 15095, terms: 0)>> 
Non-/sparse entries: 0/0 
Sparsity   : 100% 
Maximal term length: 0 
Weighting   : term frequency (tf)

내가 또한 일을 일부러하는이 시도? 저는 엑셀에서 주파수 시트를 열 수 있기를 원합니다. 그리고 지금은 열 수 없기 때문에 너무 많은 메모리가 필요합니다. 그래서 내가 희소성을 줄이려고합니다.

출처

2016-07-29 Deb Martin

비슷한 문제가 있었고 제 경우에는 희소성이 높아졌습니다 (내 문서의 용어 빈도가 매우 낮았 기 때문에). 대신 dtms <- removeSparseTerms(dtm, 0.1)의이 시도 : dtms <- removeSparseTerms(dtm, 0.99)이

희소성의 명확한 정의 https://stats.stackexchange.com/questions/160539/is-this-interpretation-of-sparsity-accurate를 참조하십시오 ("희소성이라는 용어가 제거 될 위의 용어에 대한 관련 문서 주파수의 임계 값을 의미합니다.")

출처

2017-06-27 18:13:47 user26750

코퍼스가 큰 문서 용어 행렬의 희소성을 줄이는 방법 (R)

답변

관련 문제