나는 긴 문자열이 포함 data$paragraph
안의 텍스트에 따라 변수 data$theme
의 값을 변경하기 위해 사용하고 R에 다음과 같은 지침이 있습니다R의 기능을 빠르게하는 방법
lines <- grep('banana|apple', file$paragraph) # lines that match search terms
for (i in 1:length(lines)){
data[lines[i], 'theme'] <- 'Fruit'
}
을
이 명령의 문제점은 대용량 데이터 세트의 경우 매우 비효율적이라는 것입니다. 나의 실제 사례는 20 만개가 넘는다. 각 대체 작업을 수행하는 데 1 초가 넘는 시간이 걸리고 4 만 개가 넘는 하위 작업을 수행해야합니다. 전체 스크립트의 작은 단계를 완료하는 데 5 시간 이상이 걸릴 수는 없습니다. 나는 이것을 가속화 할 방법을 절실히 찾고 있는데, 간단한 해결책이 있지만 거기에 도달하는 더 좋은 방법을 생각할 수는 없다. 도움!
당신은'data [lines, 'theme'] <- 'Fruit''을 시도 했습니까? 더 유용한 답변을 얻으려면 데이터 샘플을 제공하십시오. – ialm