당신이하는 RDD에 스파크 데이터 프레임을 변환 필터를 적용하고 변환 할 수 있습니다
subset(twitter_df, grepl("(?<=\\b)rally", twitter_df$bodyText, ignore.case = TRUE))
filter(twitter_df, grepl("(?<=\\b)rally", twitter_df$bodyText, ignore.case = TRUE))
하지만 두 경우 모두
이 오류가 그것은 다시 :
# setup reproducable sample
df <- data.frame(id=c(1:4), bodyText=c("rally","protest","text1","text2"))
head(twitter_df.filtered)
twitter_df <- as.DataFrame(df)
head(twitter_df)
# convert to rdd
twitter_df.rdd <- SparkR:::toRDD(twitter_df)
# filter rdd
twitter_df.rdd.filtered <- SparkR:::filterRDD(twitter_df.rdd, function(s) { grepl("(?<=\\b)rally", s$bodyText, ignore.case = TRUE, perl = TRUE) })
# convert to Spark data frame
twitter_df.filtered <- as.DataFrame(twitter_df.rdd.filtered)
head(twitter_df.filtered)
참고 매개 변수 perl
는 TRUE
또는 t로 설정 그는 표현이 유효하지 않습니다.
작품, 정말 고마워. as.DataFrame에 sqlContext를 추가해야했습니다. 'as.DataFrame (sqlContext, df)' –