尝尝pandas(4)

2019年5月19日 217次阅读来源: 雨路浅歌

今天来和大家学习pandas中几个重要的函数，它们分别是：

《尝尝pandas(4)》

apply

apply函数利用自定义函数对数据进行计算从而组成新的序列或表格。

《尝尝pandas(4)》

利用匿名函数计算每一列的最大值减去最小值，返回一个序列(Series)。

《尝尝pandas(4)》

可以把axis的值设置为1，从而计算每一行的最大值减去最小值。

《尝尝pandas(4)》

concat

concat函数的作用是将两个序列或表格合并。

把两个序列进行堆叠操作。

《尝尝pandas(4)》

为了将索引值连续排序，可以设置ignore_index的值为True，结果更加美观。

《尝尝pandas(4)》

为每一个序列编号，当然，由于不同属一个序列，这时候ignore_index的值就不能设置为True了。

《尝尝pandas(4)》

利用concat将两个表格进行堆叠。

《尝尝pandas(4)》

将含有不同列名的两个表格合并，因为此时的join为默认值outer，可以理解为数学上的并，或者更直观的理解是，df1中的”丙”列为缺失值，df2中的”乙”列为缺失值，故而两个表格合并后的效果如下。

《尝尝pandas(4)》

将join参数设置为inner，可以理解为两个表格的交。

《尝尝pandas(4)》

将axis设置为1，即沿着列堆叠。

《尝尝pandas(4)》

因为两个表格的行索引均为默认值，所以存在冲突，如果把verify_integrity设置为True则报错，当然，它的默认值为False，所以这个不用担心。

《尝尝pandas(4)》

groupby

顾名思义，groupby函数就是用来分组的。

为了演示方便，首先创建一个表格。

《尝尝pandas(4)》

以性别为基准，计算工资和年龄的总和，如果存在某一列不是数值类型，则忽略计算该列，不会报错。

《尝尝pandas(4)》

以性别和年龄为基准，计算工资的平均值。

《尝尝pandas(4)》

append

看名字就知道了吧，这货就是用来添加序列或表格的，但是注意，它返回的是一个副本，也就是说原来的表格没有发生改变。

继续沿用上次的表格。

《尝尝pandas(4)》

把第二行添加到表格末尾。

《尝尝pandas(4)》

把第二三行添加到表格末尾。

《尝尝pandas(4)》

merge

merge函数也是用来合并表格的，不过它和concat不太一样。concat只是机械地堆叠在一起，而merge更像是把两个表格柔和在一起。

以’A’为基准，将两个表格柔和在一起，注意参数on的值必须是两个表格都存在的。

《尝尝pandas(4)》

concat函数的结果。

《尝尝pandas(4)》

另一种用法。

《尝尝pandas(4)》

如果”A”中存在不同的值，则舍弃不同的值，只取公共部分。

《尝尝pandas(4)》

上面的结果归根结底是因为参数how取默认值inner，即交集，如果将其设置为outer，则相当于并集。

《尝尝pandas(4)》

除此之外，how的参数还可以设置为”left”(以第一个表格为标准，第二个表格中相对于基准on的参数不存在的值取缺失值)和”right”(以第二个表格为标准，第一个表格中相对于基准on的参数不存在的值取缺失值)

《尝尝pandas(4)》

pivot_table

pivot_table函数的作用是创建数据透视表。

为了演示方便，我创建了以下的表格。

《尝尝pandas(4)》

将身高和体重作为要处理的数据，将班级和性别作为行索引，方法为计算平均值。

《尝尝pandas(4)》

计算身高的平均值和体重的总和。

《尝尝pandas(4)》

其它

计算各元素的个数。

《尝尝pandas(4)》

将字符串连接起来，注意此时序列中的值只能是字符串类型。

《尝尝pandas(4)》

将字符串改为大写。

《尝尝pandas(4)》

今天的内容就是这些，下期见，祝有美好的一天。

《尝尝pandas(4)》 python小白联盟

    原文作者：雨路浅歌
    原文地址: https://www.jianshu.com/p/7d6d0ac93d04
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。