2016-07-18 5 views
0

큰 파일 세트가 하나의 파일 및 여러 개의 zip 파일에 압축되어 있습니다. 이전에 Mapreduce를 사용하여 xml을 사용자 정의 inputformat 및 recordreader를 사용하여 splittable = false로 설정하고 zip 및 xml 파일을 읽는 방법으로 구문 분석을 수행했습니다.Spark에서 압축 된 XML 파일 읽기

저는 Spark를 처음 사용합니다. 누군가 내가 MR에서 할 수있는 것처럼 스파크가 zip 파일을 분할하지 못하게하고 여러 개의 zip을 병렬로 처리하는 방법을 알려줄 수 있습니까?

+0

당신은 예제 또는 유스 케이스 감사를 제공 해주실 수 있습니다! 귀하의 질문을 이해할 수 없기 때문에 –

+0

나는 큰 xml이 거의 없으며 여러 개의 zip에 압축되어 있습니다. 블록 크기에 따라 분할하지 않고 내 zip 및 xml을 구문 분석하고 싶습니다. – Pooja3101

답변

0

AFAIk! 귀하의 질문에 대한 답변은 @holden의 here으로 제공됩니다 : 보세요! 감사합니다 :)

+1

매우 유용하지만 대답은 아닙니다. 질문을 복제본으로 표시하고 링크 된 링크를 선택하여 닫거나 다른 답변에 링크 할 수 있습니다. 또한 링크를 클릭하여 중요한 비트를 인용 할 수 있도록 답변을 편집 할 수 있습니다. –

+0

나는 당신이 공유 한 링크를 통해갔습니다. 나는 한 가지 의심이있다. 분할하지 않고 어떻게 하나의 파일을 파싱 할 수 있습니까? MR 에서처럼, 사용자 정의 inputformat 클래스에서 splitable = false 속성을 사용하고 있습니다. 어떻게하면 스파크에서도 같은 결과를 얻을 수 있습니다. – Pooja3101

+0

아래에서 시도했지만 오류가 발생했습니다.=> 새로운 ZipInputStream (content.open)} > > : 95 : 오류 : 형식이 일치하지 않습니다. > 발견 : java.util.zip.ZipInputStream > 필수 : ​​TraversableOnce [?] > val zipFileRDD = sc.binaryFiles (zipFile) .flatMap {case (name, content) => 새로운 ZipInputStream (content.open)} – Pooja3101