我有一个spark数据帧,这里是架构:
|-- eid: long (nullable = true)
|-- age: long (nullable = true)
|-- sex: long (nullable = true)
|-- father: array (nullable = true)
| |-- element: array (containsNull = true)
| | |-- element: long (containsNull = true)
和一个行样本:
df.select(df['father']).show()
+--------------------+
| father|
+--------------------+
|[WrappedArray(-17...|
|[WrappedArray(-11...|
|[WrappedArray(13,...|
+--------------------+
而且类型是
DataFrame[father: array<array<bigint>>]
如何访问内部数组的每个元素?比如第一行-17?
我尝试了不同的东西,如df.select(df [‘father’])(0)(0).show()但没有运气.
最佳答案 如果我没有弄错,Python中的语法是
df.select(df['father'])[0][0].show()
要么
df.select(df['father']).getItem(0).getItem(0).show()
请看这里的一些例子:http://spark.apache.org/docs/latest/api/python/pyspark.sql.html?highlight=column#pyspark.sql.Column