python – 访问WrappedArray元素

2023年2月5日 439次阅读

我有一个spark数据帧,这里是架构：

|-- eid: long (nullable = true)
|-- age: long (nullable = true)
|-- sex: long (nullable = true)
|-- father: array (nullable = true)
|    |-- element: array (containsNull = true)
|    |    |-- element: long (containsNull = true)

和一个行样本：

df.select(df['father']).show()
+--------------------+
|              father|
+--------------------+
|[WrappedArray(-17...|
|[WrappedArray(-11...|
|[WrappedArray(13,...|
+--------------------+

而且类型是

DataFrame[father: array<array<bigint>>]

如何访问内部数组的每个元素？比如第一行-17？
我尝试了不同的东西,如df.select(df [‘father’])(0)(0).show()但没有运气.

最佳答案如果我没有弄错,Python中的语法是

df.select(df['father'])[0][0].show()

要么

df.select(df['father']).getItem(0).getItem(0).show()

请看这里的一些例子：http://spark.apache.org/docs/latest/api/python/pyspark.sql.html?highlight=column#pyspark.sql.Column