2017-10-21 2 views
0

나는 스파크 및 프로그래밍 언어를 처음 사용합니다. 각 태그를 기반으로 XML 파일을 구문 분석하는 데 도움이 필요합니다.XML 데이터 집합을 처리하는 방법?

XML File: 
<?xml version="1.0"?> 
<?xml-stylesheet type="text/xsl" href="myfile.xsl" ?> 
<bookstore specialty="novel"> 
    <book style="autobiography"> 
    <author> 
     <first-name>Joe</first-name> 
     <last-name>Bob</last-name> 
     <award>Trenton Literary Review Honorable Mention</award> 
    </author> 
    <price>12</price> 
    </book> 
</bookstore> 

XPATH for above file: 

/bookstore[@specialty="novel"]/book[@style="autobiography"]/price 
/bookstore[@specialty="novel"]/book[@style="autobiography"]/author 
/bookstore[@specialty="novel"]/book[@style="autobiography"] 
/bookstore[@specialty="novel"] 

지금 내가 XPath를 읽고 각 태그 (bookstore.txt, book.txt, author.txt)

에 따라 파일을 구문 분석 할 : 여기

내 작은 예를 입력 파일입니다

Bookstore.txt :

UUID= 1233455 (onfly have to create) 
specialty="novel" 

Book.txt :

,968,321 0

Author.txt :

UUID= 9876534(onfly generate and link to book file) 
<first-name>Joe</first-name> 
     <last-name>Bob</last-name> 
     <award>Trenton Literary Review Honorable Mention</award> 

어떤 사람이 그것에 대해 나를 도울 수 바랍니다.

은 .. 미리 감사

+1

[asking guide] (https://stackoverflow.com/help/asking)를 읽어보십시오. 먼저 문제를 직접 해결하고 검색을 시도하고 ** 지금까지 가지고있는 코드를 제공하도록 노력해야합니다 **. 문제를 언급하고 바로 사용할 수있는 솔루션을 요청할 수는 없습니다. – laughedelic

답변

0

사용 스파크 SQL하고있는 spark-xml 모듈 :

라이브러리 분석 및 스파크 SQL 및 DataFrames를 들어, 아파치 스파크와 XML 데이터를 쿼리.

관련 문제