내 질문은 문자열을 여러 패턴과 일치시키는 주제를 토대로 작성되었습니다. here에 설명 된 한 가지 해결책은 2 차원 매트릭스를 산출하는 sapply(keywords, grepl, strings, ignore.case=TRUE)
을 사용하는 것입니다.조회를위한 환경 사용 방법
그러나 5K + 키워드 및 60K + 문자열에이 접근법을 적용 할 때 상당한 속도 문제가 발생합니다 (12 시간 후에 프로세스가 취소됨).
하나의 아이디어는 해시 테이블이나 환경을 R에서 사용하는 것입니다. 그러나 숫자 인덱스를 유지하면서 내 문자열을 환경으로 변환하고 변환하는 방법을 얻지 못합니까? assign
에서 x
같이 문자 여야합니다 strings[60000]
e <- new.env(hash=TRUE)
for (i in 1:length(strings)) {
assign(x=i, value=strings, envir=e)
}
까지 내가 strings[1]
이
는 ..., 나는 이런 식으로 사용할 수 없습니다,하지만 난 당신이 내 idea..I이 원하는 얻을 희망 같은 숫자로 환경을 색인 할 수 있음 string[...]
벡터
도움 주셔서 감사합니다!
룩업 사전 당신이하지 않는 환경으로 문자열을 넣어 것입니다. 따라서 키워드는 조회에 사용될 것입니다. 해시 (envir) 검색은 a와 b를 검색하는 2 열 매트릭스/데이터 프레임입니다. 그래서 문자열은 실제로 거기에 가지 않습니다. 또한 나는 정말로 당신을 늦추는 것이'grepl '이라고 추측합니다. 어쨌든 이는 재현 가능한 예가 아닙니다. 지금까지 시도한 데이터와 코드를 게시하십시오. 이전 질문을 단순히 언급하지 않고 각 질문에 대한 데이터를 제공하십시오. 답장을 보내 주셔서 감사합니다. –