3
D, E 사이의 jaro-winkler 통계를 계산하려고하는데 약 8 백만 회의 관측과 5 자 변수의 데이터 세트 "X"를 가지고 있습니다 (A, B, C, D 및 E라고 함).데이터 청크 처리
library(RecordLinkage)
X$jw = jarowinkler(X$D, X$E)
문제는 더 메모리는 컴퓨터가 단순히 정지까지 최대 익숙해 유지한다는 것이다 다음 RecordLinkage
패키지. "청크 (chunks)"에서 자동으로 처리하는 방법이 있습니까? X를 합리적으로 작은 크기로 미리 수동 분할하고 개별 하위 집합으로 작업하지 않아도됩니까?
다른 말로하면, 나에게 사전 처리를하지 않고도 분할 및 처리를 수행하는 내장 함수가 있습니까?
현재이 옵션은 실제로 가장 고통스러운 옵션으로 보입니다. – user702432