1

상황sparkdataframes에서 sparkR에 data.table을 사용할 수 있습니까?

나는 정말 빨리하기 때문에 대신 plyr 또는 sqldf의 data.table에 Rstudio에서 작동하는 데 사용됩니다. 자, 나는 푸른 클러스터에서 sparkR에 대해 연구하고 있는데, 스파크 데이터 프레임에 data.table을 사용할 수 있다면 지금하고 싶습니다. SQL보다 빠르다 면요?

+0

Rstudio의'sparklyr' 패키지는'dplyr'과 함께 스파크 데이터 프레임을 사용할 수 있도록합니다. –

+0

예, @DavidArenburg,하지만 하나는 data.table 패키지와 그 관용구를 사용하여 스파크 데이터 프레임을 분석하거나 dplyr를 사용해야합니까? – Avraham

+1

@Avraham data.tables 작성자는 [h2o.ai] (https://www.h2o.ai/)에서 일합니다. 이것은 R 구문을 유지하고 분산 바이너리 검색 ([this] (https://www.youtube.) 참조)과 같은 많은 data.table 기능을 내장하고있는 (Spark IIRC 기반의) 분산 시스템입니다. co.kr/watch? v = 5X7h1rZGVs0)). 그것 이외에, 당신이 하나의 노드로 수집하지 않는 한, spark data.frame에서 data.table을 사용하여 작업하는 방법을 잘 모르겠습니다. –

답변

1

불가능합니다. SparkDataFrames은 얇은 R 인터페이스가있는 Java 객체입니다. 일부 제한된 경우에 작업자 측 R을 사용할 수 있지만 (dapply, gapply) data.table에는 용도가 없습니다.

+0

데이터 프레임을 유지하고 data.table을 사용하거나 SparkDataFrames를 사용하고 sparklyr 또는 sparkSQL을 사용하는 것이 더 빠릅니까? –