4
Spark 2.2.0 및 Scala 2.11.8에서 다음 DataFrame을 보유하고 있습니다.각 행에 대해 열에서 특정 요소를 추출하는 방법은 무엇입니까?
+----------+-------------+
|item | other_items |
+----------+-------------+
| 111 | 444 |
| 222 | 444 |
| 444 | 111 |
그래서, 기본적으로, 나는 각 행에 대해 other_items
에서 처음 item
를 추출해야합니다
+----------+-------------------------------+
|item | other_items |
+----------+-------------------------------+
| 111 |[[444,1.0],[333,0.5],[666,0.4]]|
| 222 |[[444,1.0],[333,0.5]] |
| 333 |[] |
| 444 |[[111,2.0],[555,0.5],[777,0.2]]|
나는 다음과 같은 DataFrame을 싶어. 또한 빈 배열 []
이있는 행을 other_products
에 무시해야합니다.
어떻게하면됩니까?
이 방법을 시도했지만 예상 한 결과를 얻지 못했습니다. 이와 같이
|-- item: string (nullable = true)
|-- other_items: array (nullable = true)
| |-- element: struct (containsNull = true)
| | |-- _1: string (nullable = true)
| | |-- _2: double (nullable = true)