일반적으로 데이터 연결에 비교적 새로운 기능이며 특히 R RecordLinkage package입니다. 당신은 내가 두 개의 데이터 프레임, dss_member
(11 행) 및 patient
(5 행)가 볼 수R의 RecordLinkage 패키지를 사용하여 레코드 일치를 찾는 방법?
require(RecordLinkage)
library(RCurl)
dss_member <- read.csv(text = getURL("https://raw.githubusercontent.com/kilimba/data/master/dss_member.csv"),
stringsAsFactors = F)
dss_member$id <- NULL
patient <- read.csv(text = getURL("https://raw.githubusercontent.com/kilimba/data/master/patient.csv"),
stringsAsFactors = F)
patient$id <- NULL
rpairs <- compare.linkage(patient,dss_member)
rpairs$pairs
rpairs <- epiWeights(rpairs)
summary(rpairs)
: 나는 다음과 같은 데이터를 가지고있다. 나는 두 블록 모두 에 이론적으로는이 분명히 링크 인 사용자 James Earl Jones가 있어야한다고 주장했다. 그러나 나는 2 가지 염려가있다. 출력
라인
rpairs$pairs
결과 마지막 열is_match
항상 I 셋 모두 동일되는 적어도 하나 개의 열의 확신에도 NA로 나타낸다. 이것은 무엇을 의미 하는가? 이는 아직 답변되지 않은 another SO question과 관련이 있습니다.선들
rpairs <- epiWeights(rpairs)
summary(rpairs)
다음과 같은 결과를 수득 :
가Linkage Data Set
5 records in data set 1
11 records in data set 2
55 record pairs
0 matches
0 non-matches
55 pairs with unknown status
Weight distribution:
[0,0.2] (0.2,0.4] (0.4,0.6] (0.6,0.8] (0.8,1]
47 1 3 2 2
(ㄱ)은 0 일치 0 비를 보여주는가을 일치하는 경우 확실히 최소한 일치 (James Earl Jones)
(b) compare.linkage()
함수의 identity
인수는 선택 사항입니까? 만약 그렇다면, 그것을 내놓을 때와 내놓을 때 어떤 일이 일어날까요?
(c) 레코드 연결을 수행하기 위해 "Gold Standard"가없는 경우에도이 패키지를 사용할 수 있으며 이 아니고 레코드 연결 평가입니까?
종류와 관련, Tumaini