2016-07-08 2 views
1

Windows에 설치된 SparkR의 마루 파일을 읽으려고합니다. 나는 다음과 같은 명령 all_tweets < 실행하면 - 수집 (read.parquet (는 SqlContext를, "HDFS : // localhost를 : 9000/orcladv/인터넷/rawtweets은"))Windows의 SparkR

나는 isStatic = (invokeJava에 오류 오류 FALSE, objId $ id, methodName, ...) : java.lang.AssertionError : 어설 션 실패 : 사전 정의 된 스키마가 발견되지 않았으며 파일 아래에 파르 케 데이터 파일 또는 요약 파일이 없음 :/C :/Users/xxxxx/Documents/hdfs :/localhost : 9000/orcladv/internet/rawtweets. 그것은 HDFS와 같이/사용자 :/C :이 파일을 접두사 이유

at scala.Predef$.assert(Predef.scala:179) 

는 잘 모르겠어요 // localhost를 : 9000

도와주세요 ..

감사

발라

+0

관련이 없지만 유용 할 수 있습니다. collect() 사용에 대해서는주의하십시오. Parquet 파일에서 Spark DataFrame으로 직접 데이터를 가져 오십시오. collect()를 사용하면 Spark DataFrame을 날려 버리고 R 스레드가 하나의 스레드에서 처리됩니다. 그것은 Spark의 분산 처리 능력을 사용하지 않습니다. 반대로, 코드에서 collect()를 제거하면 클러스터 전체에서 다중 스레드로 처리되는 Spark DataFrame이 생성됩니다. 데이터 세트가 R data.frame에서 처리 할 수있을 정도로 작 으면 왜 Spark를 사용합니까? – SpiritusPrana

+0

감사합니다 SpiritusPrana. 네, 수집 사용의 중요성을 이해합니다. 이 경우 비즈니스 로직의 경우 로직이 개별 행에서 작동하기 때문에 collect() 함수를 사용하지 않아도됩니다. 그것은 다른 행의 정보를 이해할 필요가 없으며 그 의미에서 행은 서로 배타적입니다. 그러나 우리가 Spark ** R **을 여러 번 사용한다면 우리는 일련의 데이터 흐름에 대해 작동해야 할 것입니다. 이는 분석 프로세스의 종류에 기인합니다. 귀하의주의에 다시 한 번 감사드립니다,이 경우 확실히 collect()를 제거 할 수 있습니다 –

답변

0

this post이 도움이 되나요? 그것은 관련된 것, 그리고 올바른 hdfs 경로를 찾는 방법에 대한 단서를 제공합니다.

"localhost"를 core-site.xml 파일의 fs.defaultFS 값으로 변경하십시오.

hdfs 경로가 유효하지 않은 경우 Spark는 로컬 파일 시스템을 조사해야한다고 가정합니다.

+0

나는 행운과 함께 이것을 시도했습니다. 놀라운 점은 a) Linux 기반 Hadoop/Spark 환경에서 동일한 코드가 작동한다는 점입니다. b) hdfs : // 앞에 접두어를 붙이는 경로는 어디에서 얻을 수 있습니까? –

+0

all_tweets <- read.parquet (sqlContext, "hdfs : /// localhost : 9000 // orcla 16/07/12 00:57:30 정보 parquet.ParquetRelation : hdfs : // localhost : 9000/C : /를 나열합니다. 드라이버에 대한/spark-1.6.1-bin-hadoop2.6/bin/hdfs :/localhost : 9000/orcladv/internet/rawtweets 16/07/12 00:57:30 오류 r.RBackendHandler : 5 쪽 마루 파기에 실패했습니다. invokeJava (isStatic = FALSE, objId $ id, methodName, ...)의 오류 : 어설 션 실패 : 미리 정의 된 스키마가없고, 마루 데이터가 없습니다. hdfs : // localhost : 9000/C : /installs/spark-1.6.1-bin-h adoop2.6/bin/hdfs :/localhost : 9000/orcladv/internet/rawtweets –