0
저는 Spark를 처음 사용합니다. 내가 원하는 것은 중첩 된 jsons를 읽고 특정 조건에 따라 그룹화하는 것입니다. 예 : json에 도시와 우편 번호와 같은 사람의 세부 정보가있는 경우 나는 같은 도시와 우편 번호에 속한 사람들을 그룹화하고 싶습니다.집계를 위해 중첩 JSON을 읽는 방법은 무엇입니까?
나는 DataSet에 jsons를 읽을 때까지 진행되었습니다. 하지만 그룹화하는 방법을 알지 못합니다.
내 중첩 된 JSON 형식이 내가 파일에서 중첩 된 JSON을 읽고 작성한 코드입니다
{
"entity": {
"name": "SJ",
"id": 31
},
"hierarchy": {
"state": "TN",
"city": "CBE"
},
"data": {}}
입니다.
public void groupJsonString(SparkSession spark) {
Dataset<Row> studentRecordDS = spark.read()
.option("timestampFormat", "yyyy/MM/dd HH:mm:ss ZZ")
.json("/home/shiney/Documents/NGA/sparkJsonFiles/*.json");
StructType st = studentRecordDS.schema();
List<StructType> nestedList = new ArrayList<>();
for(StructField field : st.fields()) {
nestedList.add((StructType)field.dataType());
}
}