2017-09-21 4 views
1

퍼지 조인을하기 위해 stringdist 패키지를 실험하고 있습니다. 이해가 안되고 답을 찾을 수없는 문제가 발생합니다. "dl"메서드를 사용하여이 2 개의 데이터 테이블을 결합하려고합니다. 완전히 이해할 수없는 NA를 생성합니다. 어쩌면 당신 중 한 명은 이에 대한 설명을 갖고있을 것입니다. 코드 :stringdist_join 결과가 NAs가됩니다

y <- stringdist_join(test1, test2, by = "label", mode = "left", distance_col="distance", method="jaccard", q=4) 

희망 누군가가 명확히 수 있습니다

내가 그러나 인 Jaccard 방법을 사용하는 경우
library(fuzzyjoin) 
test1<-as.data.frame(test1<-c("techniker")) 
test2<-as.data.frame(test2<-c("technician")) 
setnames(test2,1,"label") 
setnames(test1,1,"label") 
x <- stringdist_join(test1, test2, by = "label", mode = "left", distance_col="distance", method="dl") 

, 일치가있다.

건배 돔

답변

0

max_dist은 기본적으로 2로 설정됩니다.

"tekniker""technician" 사이의 dl 거리

2. 너무 일치가 없습니다보다 더입니다.

stringdist_join(test1, test2, by = "label", mode = "left", distance_col="distance", method="dl",max_dist=5) 
#  label.x label.y distance 
# 1 techniker techni  3