큰 파일 세트가 하나의 파일 및 여러 개의 zip 파일에 압축되어 있습니다. 이전에 Mapreduce를 사용하여 xml을 사용자 정의 inputformat 및 recordreader를 사용하여 splittable = false로 설정하고 zip 및 xml 파일을 읽는 방법으로 구문 분석을 수행했습니다.Spark에서 압축 된 XML 파일 읽기
저는 Spark를 처음 사용합니다. 누군가 내가 MR에서 할 수있는 것처럼 스파크가 zip 파일을 분할하지 못하게하고 여러 개의 zip을 병렬로 처리하는 방법을 알려줄 수 있습니까?
당신은 예제 또는 유스 케이스 감사를 제공 해주실 수 있습니다! 귀하의 질문을 이해할 수 없기 때문에 –
나는 큰 xml이 거의 없으며 여러 개의 zip에 압축되어 있습니다. 블록 크기에 따라 분할하지 않고 내 zip 및 xml을 구문 분석하고 싶습니다. – Pooja3101