2016-06-02 2 views
0

일반적으로 데이터 연결에 비교적 새로운 기능이며 특히 R RecordLinkage package입니다. 당신은 내가 두 개의 데이터 프레임, dss_member (11 행) 및 patient (5 행)가 볼 수R의 RecordLinkage 패키지를 사용하여 레코드 일치를 찾는 방법?

require(RecordLinkage) 
library(RCurl) 

dss_member <- read.csv(text = getURL("https://raw.githubusercontent.com/kilimba/data/master/dss_member.csv"), 
         stringsAsFactors = F) 
dss_member$id <- NULL 
patient <- read.csv(text = getURL("https://raw.githubusercontent.com/kilimba/data/master/patient.csv"), 
        stringsAsFactors = F) 
patient$id <- NULL 

rpairs <- compare.linkage(patient,dss_member) 

rpairs$pairs 

rpairs <- epiWeights(rpairs) 

summary(rpairs) 

: 나는 다음과 같은 데이터를 가지고있다. 나는 두 블록 모두 에 이론적으로는이 분명히 링크 인 사용자 James Earl Jones가 있어야한다고 주장했다. 그러나 나는 2 가지 염려가있다. 출력

  1. 라인 rpairs$pairs 결과 마지막 열 is_match 항상 I 셋 모두 동일되는 적어도 하나 개의 열의 확신에도 NA로 나타낸다. 이것은 무엇을 의미 하는가? 이는 아직 답변되지 않은 another SO question과 관련이 있습니다.

  2. 선들

    rpairs <- epiWeights(rpairs)

    summary(rpairs)

다음과 같은 결과를 수득 :

Linkage Data Set 

5 records in data set 1 
11 records in data set 2 
55 record pairs 

0 matches 
0 non-matches 
55 pairs with unknown status 


Weight distribution: 

    [0,0.2] (0.2,0.4] (0.4,0.6] (0.6,0.8] (0.8,1] 
     47   1   3   2   2 

(ㄱ)은 0 일치 0 비를 보여주는가을 일치하는 경우 확실히 최소한 일치 (James Earl Jones)

(b) compare.linkage() 함수의 identity 인수는 선택 사항입니까? 만약 그렇다면, 그것을 내놓을 때와 내놓을 때 어떤 일이 일어날까요?

(c) 레코드 연결을 수행하기 위해 "Gold Standard"가없는 경우에도이 패키지를 사용할 수 있으며 이 아니고 레코드 연결 평가입니까?

종류와 관련, Tumaini

답변

0

Tumaini는

당신은 진정한 상태 (허위 또는 사실) 및 분류 (비 연결 가능, 또는 링크)를 구별 할 필요가있다. R Journal 2/2 (2010)의 저자의 기사, 패키지 설명서 및 저자의 응답은 R RecordLinkage Identity을 참조하십시오.

직접 질문에 대답하려면

(A)의 출력이 "0 일치"과 "0이 아닌 일치"당신이 compare.linkage의 identity1 및 identity2 인수를 생략하기 때문이다().

(b) 예, compare.linkage()의 identity1 및 identitity2 인수는 선택 사항입니다. ID 인수를 생략하면 true 일치 상태가 무시됩니다. ID 인수를 올바르게 지정하면 진정한 일치 상태가 사용됩니다.

(c) "레코드 연결"대 "레코드 연결 평가"의 의미가 확실하지 않습니다. 레코드 연결은 비교 패턴을 입력으로하고 일치 상태를 출력으로 분류 문제로 이해할 수 있습니다.

1) 실행 compare.linkage 신원 인수없이 : 여기

는 당신이 시도 할 수있는 4 단계 솔루션입니다.

2) 레코드 쌍으로부터 개의 변수 두 개를 생성하십시오.

3) 두 개의 ID 변수를 벡터으로 변환하십시오.

4) 신원 인수를 사용하여 compare.linkage를 다시 실행하십시오.

앤더스 알렉산더슨 [email protected]

관련 문제