尝尝pandas(4)

今天来和大家学习pandas中几个重要的函数,它们分别是:

《尝尝pandas(4)》

apply

apply函数利用自定义函数对数据进行计算从而组成新的序列或表格。

《尝尝pandas(4)》

利用匿名函数计算每一列的最大值减去最小值,返回一个序列(Series)。

《尝尝pandas(4)》

可以把axis的值设置为1,从而计算每一行的最大值减去最小值。

《尝尝pandas(4)》

concat

concat函数的作用是将两个序列或表格合并。

把两个序列进行堆叠操作。

《尝尝pandas(4)》

为了将索引值连续排序,可以设置ignore_index的值为True,结果更加美观。

《尝尝pandas(4)》

为每一个序列编号,当然,由于不同属一个序列,这时候ignore_index的值就不能设置为True了。

《尝尝pandas(4)》
《尝尝pandas(4)》

利用concat将两个表格进行堆叠。

《尝尝pandas(4)》

将含有不同列名的两个表格合并,因为此时的join为默认值outer,可以理解为数学上的并,或者更直观的理解是,df1中的”丙”列为缺失值,df2中的”乙”列为缺失值,故而两个表格合并后的效果如下。

《尝尝pandas(4)》

将join参数设置为inner,可以理解为两个表格的交。

《尝尝pandas(4)》

将axis设置为1,即沿着列堆叠。

《尝尝pandas(4)》

因为两个表格的行索引均为默认值,所以存在冲突,如果把verify_integrity设置为True则报错,当然,它的默认值为False,所以这个不用担心。

《尝尝pandas(4)》

groupby

顾名思义,groupby函数就是用来分组的。

为了演示方便,首先创建一个表格。

《尝尝pandas(4)》

以性别为基准,计算工资和年龄的总和,如果存在某一列不是数值类型,则忽略计算该列,不会报错。

《尝尝pandas(4)》

以性别和年龄为基准,计算工资的平均值。

《尝尝pandas(4)》

append

看名字就知道了吧,这货就是用来添加序列或表格的,但是注意,它返回的是一个副本,也就是说原来的表格没有发生改变。

继续沿用上次的表格。

《尝尝pandas(4)》

把第二行添加到表格末尾。

《尝尝pandas(4)》

把第二三行添加到表格末尾。

《尝尝pandas(4)》

merge

merge函数也是用来合并表格的,不过它和concat不太一样。concat只是机械地堆叠在一起,而merge更像是把两个表格柔和在一起。

以’A’为基准,将两个表格柔和在一起,注意参数on的值必须是两个表格都存在的。

《尝尝pandas(4)》

concat函数的结果。

《尝尝pandas(4)》

另一种用法。

《尝尝pandas(4)》

如果”A”中存在不同的值,则舍弃不同的值,只取公共部分。

《尝尝pandas(4)》

上面的结果归根结底是因为参数how取默认值inner,即交集,如果将其设置为outer,则相当于并集。

《尝尝pandas(4)》

除此之外,how的参数还可以设置为”left”(以第一个表格为标准,第二个表格中相对于基准on的参数不存在的值取缺失值)和”right”(以第二个表格为标准,第一个表格中相对于基准on的参数不存在的值取缺失值)

《尝尝pandas(4)》

pivot_table

pivot_table函数的作用是创建数据透视表。

为了演示方便,我创建了以下的表格。

《尝尝pandas(4)》

将身高和体重作为要处理的数据,将班级和性别作为行索引,方法为计算平均值。

《尝尝pandas(4)》

计算身高的平均值和体重的总和。

《尝尝pandas(4)》

其它

计算各元素的个数。

《尝尝pandas(4)》

将字符串连接起来,注意此时序列中的值只能是字符串类型。

《尝尝pandas(4)》

将字符串改为大写。

《尝尝pandas(4)》

今天的内容就是这些,下期见,祝有美好的一天。

《尝尝pandas(4)》 python小白联盟

    原文作者:雨路浅歌
    原文地址: https://www.jianshu.com/p/7d6d0ac93d04
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞