2011-09-18 3 views
3

D, E 사이의 jaro-winkler 통계를 계산하려고하는데 약 8 백만 회의 관측과 5 자 변수의 데이터 세트 "X"를 가지고 있습니다 (A, B, C, D 및 E라고 함).데이터 청크 처리

library(RecordLinkage) 
X$jw = jarowinkler(X$D, X$E) 

문제는 더 메모리는 컴퓨터가 단순히 정지까지 최대 익숙해 유지한다는 것이다 다음 RecordLinkage 패키지. "청크 (chunks)"에서 자동으로 처리하는 방법이 있습니까? X를 합리적으로 작은 크기로 미리 수동 분할하고 개별 하위 집합으로 작업하지 않아도됩니까?

다른 말로하면, 나에게 사전 처리를하지 않고도 분할 및 처리를 수행하는 내장 함수가 있습니까?

답변

0

음, 가장 간단한 해결책은 read.table (또는 CSV 또는 기타)에 nrows 인수를 사용하는 것입니다. nrows를 작은 값으로 설정 한 다음 세그먼트를 반복하면서 원하지 않는 객체를 제거하고 gc()을 호출합니다.

+0

현재이 옵션은 실제로 가장 고통스러운 옵션으로 보입니다. – user702432