在线性回归中,这两个变量通过方程相关,其中这两个变量的指数(幂)为1。在数学上,线性关系表示绘制为图形时的直线。 任何变量的指数不等于1的非线性关系都会创建一条曲线。 Seaborn找到线性回归关系的函数是regplot…
分类:Python数据科学
Python卡方检验
卡方检验是确定两个分类变量是否具有显着相关性的统计方法。 这两个变量应该来自相同的人口,他们应该是类似的 – 是/否,男/女,红/绿等。例如,我们可以建立一个数据集,观察人们的冰淇淋购买模式并尝试关联 …
Python关联
相关性是指涉及两个数据集之间相关性的一些统计关系。 依赖现象的简单例子包括父母与其后代的外表之间的相关性,以及产品价格与其供应量之间的相关性。 以在seaborn python库中提供的虹膜数据集为例。 其中我们试图建立…
Python P值
p值是关于假设的强度。 我们基于一些统计模型建立假设,并使用p值比较模型的有效性。 获得p值的一种方法是使用T检验。 这是对零假设的双侧检验,即独立观察值'a'的样本的期望值(平均值)等于给定的总体均值popmean。看…
Python伯努利分布
伯努利分布是二项分布的特例,其中进行了单个实验,因此观察次数为1。因此,伯努利分布因此描述了具有两个结果的事件。 在numpy库中使用各种函数来数学计算伯努利分布的值。通过绘制概率分布曲线来创建直方图。 from sci…
Python泊松分布
泊松分布是显示事件在预定时间段内发生的可能次数的分布。 它用于在给定的时间间隔内以恒定速率发生的独立事件。 泊松分布是一个离散函数,意味着事件只能被测量为发生或不发生,这意味着变量只能用整数来度量。 我们使用具有内置函数…
Python二项分布
二项分布模型处理的是在一系列实验中只发现两种可能结果的事件成功概率。 例如,投掷硬币总是会产生正面或背面。 在二项分布期间估计重复抛掷硬币10次获得3个正面的概率。 我们使用具有内置函数的seaborn python库来…
Python正态分布
正态分布是通过排列数据中每个值的概率分布来呈现数据的形式。大多数值保持在平均值附近,使得排列对称。 可使用numpy库中各种函数来数学计算正态分布的值。 通过绘制概率分布曲线来创建直方图。 import matplotl…
Python测量方差
在统计中,方差是衡量数据集中的值与平均值相差多少的指标。 换句话说,它表示值的分散程度。 它通过使用标准偏差来衡量。 另一种常用的方法是偏斜。 这两个都是通过使用pandas库中可用的函数来计算的。 测量标准偏差 标准偏…
Python衡量中心趋势
数学中心趋势意味着测量数据集中值或位置的分布。 它给出了数据集中数据的平均值的一个概念,也表明数据集中数值的扩展程度。 这反过来有助于评估新的输入符合现有数据集的可能性,从而有助于评估成功的可能性。 有三种主要的集中趋势…
Python图数据
CSGraph代表压缩稀疏图,它着重于基于稀疏矩阵表示的快速图算法。 图的表示 首先,让我们了解一个稀疏图是什么以及它在图表示中的作用。 什么是稀疏图? 图形只是节点的集合,它们之间有链接。 图表几乎可以代表任何事物 &…
Python时间序列
现在已经创建了许多开源python库来表示地理地图。 它们高度可定制,并提供各种地图,描绘不同形状和颜色的区域。 一个包是Cartopy。 可以从Cartopy的本地环境下载并安装此软件包。可以在画廊找到很多例子。 在下…
Python时间序列
时间序列是一系列数据点,其中每个数据点与时间戳相关联。 一个简单的例子就是某个特定日子不同时间点股市中股票的价格。 另一个例子是一年中不同月份一个地区的降雨量。 在下面的例子中,我们将特定股票代码的每个季度的股票价格的值…
Python 3D图
Python也能够创建三维图表。 它涉及将一个子图添加到现有的二维图并将投影参数指定为3d。 绘制3D图表 3dPlot由mpl_toolkits.mplot3d绘制,以便将子图添加到现有的2d图。 from mpl_t…
Python气泡图
气泡图将数据显示为一组圆圈。 创建气泡图所需的数据需要具有xy坐标,气泡大小和气泡颜色。 颜色可以由库自己提供。 绘制气泡图 气泡图可以使用DataFrame.plot.scatter()方法来创建。 import ma…