pyspark系列--pandas与pyspark对比

2019年10月27日 168次阅读来源: master苏

2018-10-18更新：

这篇文字有点老了，里面的很多方法是spark1.6版本，读者请注意。

pandas与pyspark对比

1. pandas和pyspark对比

1.1. 工作方式
1.2. 延迟机制
1.3. 内存缓存
1.4. DataFrame可变性
1.5. 创建
1.6. index索引
1.7. 行结构
1.8. 列结构
1.9. 列名称
1.10. 列添加
1.11. 列修改
1.12. 显示
1.13. 排序
1.14. 选择或切片
1.15. 过滤
1.16. 整合
1.17. 统计
1.18. 合并
1.19. 失数据处理
1.20. SQL语句
1.21. 两者互相转换
1.22. 函数应用
1.23. map-reduce操作
1.24. diff操作

1. pandas和pyspark对比

1.1. 工作方式

pandas
单机single machine tool，没有并行机制parallelism，不支持Hadoop，处理大量数据有瓶颈
pyspark
分布式并行计算框架，内建并行机制parallelism，所有的数据和操作自动并行分布在各个集群结点上。以处理in-memory数据的方式处理distributed数据。支持Hadoop，能处理大量数据。

1.2. 延迟机制

pandas
not lazy-evaluated
pyspark
lazy-evaluated

1.3. 内存缓存

pandas
单机缓存
pyspark
persist() or cache()将转换的RDDs保存在内存

1.4. DataFrame可变性

pandas
Pandas中DataFrame是可变的
pyspark
Spark中RDDs是不可变的，因此DataFrame也是不可变的

1.5. 创建

pandas
从spark_df转换：pandas_df = spark_df.toPandas()，或读取其他数据
pyspark
从pandasdf转换：spark_df = SQLContext.createDataFrame(pandas_df)
另外，createDataFrame支持从list转换sparkdf，其中list元素可以为tuple，dict，rdd

1.6. index索引

pandas
自动创建
pyspark
没有index索引，若需要则要额外创建该列

1.7. 行结构

pandas
Series结构，属于Pandas DataFrame结构
pyspark
Row结构，属于Spark DataFrame结构

1.8. 列结构

pandas
Series结构，属于Pandas DataFrame结构
pyspark
Column结构，属于Spark DataFrame结构，如：DataFrame[name: string]

1.9. 列名称

pandas
不允许重名
pyspark
允许重名,修改列名采用alias方法

1.10. 列添加

pandas
df[“xx”] = 0
pyspark
df.withColumn(“xx”, 0).show() 会报错 from pyspark.sql import functions df.withColumn(“xx”, functions.lit(0)).show()

1.11. 列修改

pandas
原来有df[“xx”]列，df[“xx”] = 1
pyspark
原来有df[“xx”]列，df.withColumn(“xx”, 1).show()

1.12. 显示

pandas
df 输出具体内容
pyspark
df 不输出具体内容，输出具体内容用show方法.
输出形式：DataFrame[age: bigint, name: string]
以树的形式打印概要：df.printSchema()
用df.collect(5)

1.13. 排序

pandas
df.sort_index() 按轴进行排序
df.sort() 在列中按值进行排序
pyspark
df.sort() 在列中按值进行排序

1.14. 选择或切片

（知乎的markdown编辑器真烂，不支持表格，只能上传图片）

《pyspark系列--pandas与pyspark对比》

1.15. 过滤

pandas
df[df['age']>21]
pyspark
df.filter(df['age']>21) 或者 df.where(df['age']>21)

1.16. 分组聚合

pandas
df.groupby('age') df.groupby('A').avg('B')
pyspark
df.groupBy('age') df.groupBy('A').avg('B').show() 应用单个函数
from pyspark.sql import functions 导入内置函数库
df.groupBy('A').agg(functions.avg('B'), functions.min('B'), functions.max('B')).show() 应用多个函数

1.17. 统计

pandas
df.count() 输出每一列的非空行数
df.describe() 描述某些列的count, mean, std, min, 25%, 50%, 75%, max
pyspark
df.count() 输出总行数
df.describe() 描述某些列的count, mean, stddev, min, max

1.18. 合并

pandas
Pandas下有concat方法，支持轴向合并
Pandas下有merge方法，支持多列合并
同名列自动添加后缀，对应键仅保留一份副本
df.join() 支持多列合并
df.append() 支持多行合并
pyspark
Spark下有join方法即df.join()
同名列不自动添加后缀，只有键值完全匹配才保留一份副本

1.19. 失数据处理

1.20. SQL语句

pandas
import sqlite3 pd.read_sql("SELECT name, age FROM people WHERE age >= 13 AND age <= 19")
pyspark
1.表格注册：把DataFrame结构注册成SQL语句使用类型
df.registerTempTable('people') 或者 sqlContext.registerDataFrameAsTable(df, 'people') spark.sql('SELECT name, age FROM people WHERE age >= 13 AND age <= 19')
2.功能注册：把函数注册成SQL语句使用类型
spark.registerFunction('stringLengthString', lambda x: len(x)) spark.sql("SELECT stringLengthString('test')")

1.21. 两者互相转换

pandas_df = spark_df.toPandas() spark_df = spark.createDataFrame(pandas_df)

1.22. 函数应用

pandas
df.apply(f) 将df的每一列应用函数f
pyspark
df.foreach(f) 或者 df.rdd.foreach(f) 将df的每一列应用函数f
df.foreachPartition(f) 或者 df.rdd.foreachPartition(f) 将df的每一块应用函数f

1.23. map-reduce操作

pandas
map-reduce操作map(func, list)，reduce(func, list) 返回类型seq
pyspark
df.map(func)，df.reduce(func) 返回类型seqRDDs

1.24. diff操作

pandas
有diff操作，处理时间序列数据（Pandas会对比当前行与上一行）
pyspark
没有diff操作（Spark的上下行是相互独立，分布式存储的）

    原文作者：master苏
    原文地址: https://zhuanlan.zhihu.com/p/34901585
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。