2017-11-21 4 views
0

큰 문서 행렬이 있습니다. (6 개 요소, 44.3 Mb)큰 문서 용어 문서 행렬을 행렬로 변환

매트릭스로 변환해야하지만이를 시도 할 때 "100GB를 할당 할 수 없습니다"라는 마법 같은 오류 메시지가 나타납니다.

이 변환을 청크로 수행 할 수있는 패키지/라이브러리가 있습니까?

나는 ff와 bigmemory를 시도했지만 DTM에서 Matrix 로의 변환을 허용하지 않는 것으로 보입니다.

+0

어쩌면 당신은 이미 통해 생각하지만 다운 스트림 작업이 무엇 바보 같은 질문이 행렬에 적용하고 싶습니까? 어쩌면 전체 DTM을 매트릭스로 바꾸는 방법도 있을까요? –

답변

1

행렬로 변환하기 전에 용어 문서 행렬에서 스파 스 용어를 제거하십시오. 이렇게하면 매트릭스 크기가 크게 줄어 듭니다. 스파 스 조건을 제거하려면 다음과 같이하십시오.

library(tm) 
## tdm - Term Document Matrix 
tdm2 <- removeSparseTerms(tdm, sparse = 0.2) 
tdm_Matrix <- as.matrix(tdm2) 

참고 : 예를 들어 희소만으로 0.2를 넣었습니다. 귀하는 귀하의 tdm에 따라 그 가치를 결정해야합니다. 여기

removeSparseTerms 기능과 sparse 값을 밝혀 것이 몇 가지 링크입니다 :

How does the removeSparseTerms in R work?

https://www.rdocumentation.org/packages/tm/versions/0.7-1/topics/removeSparseTerms

+0

스파 스 용어 제거를 고려하여 tf-idf 가중치에 따라 용어 제외에 대해 생각할 수도 있습니다. DTM의 경우 핵심 정보를 잃지 않고 합리적인 선택이되는 경우가 많습니다. –

관련 문제