트윗에 사용되는 해시 태그의 데이터 세트가 있습니다. 각 행은 특정 짹짹이고 각 변수는 각 짹짹에 사용되는 다른 해시 태그입니다. 그래서 많은 변수가 일부 관측에서는 비어 있습니다. 왜냐하면 그들은 hasthags가 적기 때문입니다. 나의 궁극적 인 목표는 가장 인기있는 3 가지 해시 태그의 동시 발생을 확인하는 것이지만, 먼저이 트윗이 이러한 top3 해시 태그를 사용하는지 확인하고자한다.일치하는 문자열 목록 찾기
내 데이터 세트는 다음과 같은 :
V1 | V2 | V3 | top3
nyc| | | nyc, cool, nyc2016
cool| nyc | | nyc, cool, nyc2016
hello| cool | nyc | nyc, cool, nyc2016
winter| nyc | | nyc, cool, nyc2016
그래서이 예에서 상위 3 해시 태그 안녕하세요 겨울 뉴욕 시원했다,하지만. 각 해시 태그가
df1<-sapply(df$V1, function(x) grepl(sprintf('\\b%s\\b', x), df$top3))
을 수행하여 TOP3 중 하나였습니다 경우
내가 보는 노력하지만 너무 오래하고있다. 그리고 나서 V2와 V3 (루프를 수행 할 수 있지만 실행하는 데 더 오래 걸릴 수 있음)에서이 작업을 수행해야합니다.제안 사항?
'sapply ($ V1 DF, 기능 (x)는 X %에서 % 올라가지 (strsplit (안양 $의 TOP3, "")))'? – JasonAizkalns