作者:东哥起飞 公众号:Python数据科学 圣人曾说过:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。 再好的模型,如果没有好的数据和特征质量,那训练出来的效果也不会有所提高。数据质量对于数据分析而…
分类:Python数据科学
案例:利用Pandas按年月、考试科目汇总学生成绩并展示为并列柱状图
需求 现有一批学生成绩,需要分析不同月份各科考试成绩波动情况,根据数据可知,即按照考试月份及考试科目对成绩汇总求平均成绩。 问题解决 根据数据源结构可知,主要难点如下: 源数据中的日期列格式为年/月/日,为便于汇总,需转…
Python线性回归
在线性回归中,这两个变量通过方程相关,其中这两个变量的指数(幂)为1。在数学上,线性关系表示绘制为图形时的直线。 任何变量的指数不等于1的非线性关系都会创建一条曲线。 Seaborn找到线性回归关系的函数是regplot…
Python卡方检验
卡方检验是确定两个分类变量是否具有显着相关性的统计方法。 这两个变量应该来自相同的人口,他们应该是类似的 – 是/否,男/女,红/绿等。例如,我们可以建立一个数据集,观察人们的冰淇淋购买模式并尝试关联 …
Python关联
相关性是指涉及两个数据集之间相关性的一些统计关系。 依赖现象的简单例子包括父母与其后代的外表之间的相关性,以及产品价格与其供应量之间的相关性。 以在seaborn python库中提供的虹膜数据集为例。 其中我们试图建立…
Python P值
p值是关于假设的强度。 我们基于一些统计模型建立假设,并使用p值比较模型的有效性。 获得p值的一种方法是使用T检验。 这是对零假设的双侧检验,即独立观察值'a'的样本的期望值(平均值)等于给定的总体均值popmean。看…
Python伯努利分布
伯努利分布是二项分布的特例,其中进行了单个实验,因此观察次数为1。因此,伯努利分布因此描述了具有两个结果的事件。 在numpy库中使用各种函数来数学计算伯努利分布的值。通过绘制概率分布曲线来创建直方图。 from sci…
Python泊松分布
泊松分布是显示事件在预定时间段内发生的可能次数的分布。 它用于在给定的时间间隔内以恒定速率发生的独立事件。 泊松分布是一个离散函数,意味着事件只能被测量为发生或不发生,这意味着变量只能用整数来度量。 我们使用具有内置函数…
Python二项分布
二项分布模型处理的是在一系列实验中只发现两种可能结果的事件成功概率。 例如,投掷硬币总是会产生正面或背面。 在二项分布期间估计重复抛掷硬币10次获得3个正面的概率。 我们使用具有内置函数的seaborn python库来…
Python正态分布
正态分布是通过排列数据中每个值的概率分布来呈现数据的形式。大多数值保持在平均值附近,使得排列对称。 可使用numpy库中各种函数来数学计算正态分布的值。 通过绘制概率分布曲线来创建直方图。 import matplotl…
Python测量方差
在统计中,方差是衡量数据集中的值与平均值相差多少的指标。 换句话说,它表示值的分散程度。 它通过使用标准偏差来衡量。 另一种常用的方法是偏斜。 这两个都是通过使用pandas库中可用的函数来计算的。 测量标准偏差 标准偏…
Python衡量中心趋势
数学中心趋势意味着测量数据集中值或位置的分布。 它给出了数据集中数据的平均值的一个概念,也表明数据集中数值的扩展程度。 这反过来有助于评估新的输入符合现有数据集的可能性,从而有助于评估成功的可能性。 有三种主要的集中趋势…