2014-09-28 4 views

답변

0

.xml 파일을 구문 분석하기 위해 python xml 모듈 중 하나를 사용하십시오. 27GB 램을 많이 사용하지 않는 한, 점진적으로이 작업을 수행해야하므로 적절하게 선택을 제한하십시오. csv 모듈을 사용하여 .csv 파일을 작성하십시오.

실제 문제는이 점입니다. CSV 파일은 필드 줄입니다. 그들은 직사각형 테이블을 나타냅니다. Xml 파일은 일반적으로 계층 구조 데이터베이스 및/또는 여러 테이블과 같이 더 복잡한 구조를 나타낼 수 있습니다. 따라서 .csv 파일에 기록 할 레코드를 추출 할 수있을 정도로 데이터 덤프 형식을 이해하는 것이 실제 문제입니다.

+0

가능한 도움말을 보려면 관련 질문을 살펴보십시오. –

0

필자는 .csv에서 .xml을 구문 분석하기 위해 PySpark 함수를 작성했습니다. XmltoCsv_StackExchange은 github repo입니다. 최소 2 코어 및 2GB RAM Spark 설정에서 2-3 분 내에 1GB의 xml을 변환하는 데 사용되었습니다. 그것은 27GB 파일도 변환 할 수 있습니다. minPartitions를 4에서 128로 늘리면됩니다.

raw = (sc.textFile(fileName, 4)) 
관련 문제