2017-02-15 15 views
2

pyspark의 dataframe에서 Acessing 중첩 된 열 :나는이처럼 보이는 XML 문서가

df.columns 
['Search'] 

print df.select("Search") 
DataFrame[Search: struct<Location:struct<Country:string,Latitude:bigint,Longitude:bigint,Region:string>>] 
: 나는 1 열을 볼 수 있습니다

df = sqlContext.read.format('com.databricks.spark.xml').options(rowTag='Position').load('1.xml') 

:

<?xml version="1.0" encoding="UTF-8" standalone="yes"?> 
<Position> 
    <Search> 
     <Location> 
      <Region>OH</Region> 
      <Country>us</Country> 
      <Longitude>-816071</Longitude> 
      <Latitude>415051</Latitude> 
     </Location> 
    </Search> 
</Position> 

가 나는 dataframe로 읽기를

중첩 열에 어떻게 액세스합니까? 지역. 지역?

+0

당신이 얻을 dataframe의 샘플 행을 게시 할 수 있습니다. –

+0

이것은 매우 유용했습니다. – lakshmi

답변

4

아래처럼 뭔가를 할 수 있습니다

df.select("Search.Location.*").show() 

출력 :

+-------+--------+---------+------+ 
|Country|Latitude|Longitude|Region| 
+-------+--------+---------+------+ 
|  us| 415051| -816071| OH| 
+-------+--------+---------+------+ 
관련 문제