数学分布，及其特点

2023年7月24日 298次阅读来源: Codlife一王家二公子

在做Kaggle 比赛：房屋价格预测时，遇到了Johnson su 分布。

Bata分布:一种随机比例，就如同一段时间内所完成的任务中有缺陷的产品所占的比例。

二项式:在规定的试验次数内所出现的结果次数;常常用来表示试验结果的成功率或失败率,例如,在一批即将到达的产品中次品的数量或者即将到达的顾客中特定类型的数量。

Cauchy:偏离中心向两边长长的延伸;Cauchy通常用于仿真分歧很大的数据，这些数据分布于平均值中心的周围；Cauchy分布看上去像正态分布，但偏离量很大。

X分布:当标准正态分布的独立变量N被开平方并求和后，将使X分布结果成正方形；它经常用在统计实验中。

常数分布：不产生随机数，且恒定的值也不会改变的；在构建模型的早期阶段，经常被用来减少随机因素的影响或用来表示已经确定的相同的次数和数目。

经验分布：对于大家来说，如果比较熟悉事件概率，用户常常自己制订或定义特定形式的分布类型。

Erlang:频率主要是基于排列理论，表示各种不同的活动中服务的次数，用于电话通信等建模。

Exponential:指数分布，在工商业的服务过程方面指数分布用的最普遍。主要用于定义事件发生的时间间隔，例如顾客到超市购物的时间间隔以及设备更新维护的周期等；也用于电话交谈的平均时间和一定阶段内需要维护的次数。

Extreme 1A:描述许多类型实例的极大值的分布范围。极大值经常用在天文学、人寿命、放射系统、材料强度、洪水和地震分析以降雨预测等系统模型的参数中。

Extreme 1B:描述许多类型实例的极小值的分布范围。极小值经常用在天文学、人寿命、放射系统、材料强度、洪水和地震分析以降雨预测等系统模型的参数中。

Gamma:通常用于代表完成某项任务所需的时间。该分布的参数值在0和1之间时与一个递减的指数分布曲线相似。如果参数值大于1时，分布的像一个摆钟一样从峰值向最小值倾斜。

Geometric:在一系列独立的以一定的成功率进行的贝努利实验中，输出第一个试验成功之前要经过失败事件的数量。通常用来代表在检查出第一件次品之前所检查产品的数量、一批随机规模实体的数量或者定单中所需求实体的数量。

Hypereponential:通常在电话通信和排队理论里使用Hyper Exponential分布。

Inverse Gaussin:通常用来模拟布朗运动和边界条件的扩散过程；它也可以模拟总数中特定尺寸的分布，可靠性、有效期限和维修时间的分布。

Inverse Weibull:在通常情况下，分布是确定的，但当达到极点时，数据有较大的偏差；这种分布用来描述寿命分布中的几次实效的过程；也用来拟合顶点一侧偏离区极不正常的数据。

Johnson SB：这种分布是正态分布的一种转变，Johnson分布已经被用在质量控制过程中来描述非正态过程，然后可被转换成正态分布用在标准试验中。

Johnson SU:如Johnson SB一样，此分部也是正态分布转变成的也可以用质量控制过程中来描述非正态过程。此外，这可以用来代大家皆知的不稳定的皮尔逊IV分布，其取值范围相当可信。

Laplace(指数分布):该分布在中间有一个尖尖的顶点以区别于正态分布；Laplace分布可用来描述相互独立的但指数相同的两个分布。常用于误差分析。

Logarithmic(对数分布):对数分布可用于描述一种样本的种类；即，规定的一种样品中到底可以有多少不同的类型。例如，该分布已用在被一个蚊子吸取的人群中具有某种特点人的数量，或者在一组存货清单中某种规定类型货物的数量。

Logistic(数理分布):数理分布非常类似于正态分布，也有更大的偏差。数理分布的功能最主要用于一些问题的发展模式；如人口问题，商业获益，企业倒闭等。

Log Logistic(数理对数):当参数S=1时，它像指数分布；当参数S<1时，它在某个位置倾向于无限大，其值随X的增加而减少；当参数S>1时，它在某个位置的最小值0,接着到达顶点并逐渐减少。

LogNormal(标准对数):此种分布常用来描述进行一项活动(特别是有多项附属活动时)需要的时间，活动失败的间隔时间或者是手工活动持续的时间；也广泛的用于保护商业其它财产保险，例如关于股票收益率或房投资回报率的评估。

Negative Binomial(负二项式分布):负二项式分布用来描述在第一个事件成功之前经过失败的试验次数；P代表成功的概率。

Normal(正态分布):就是著名的高斯曲线或叫摆钟型曲线;当事件是由于客观因素而不是人为因素产生时，使用的最广泛；例如描述许多数之和组成的总量的分布或者是误差分布。

Pareto(负指数分布):被定义为与指数分布相反的指数分布，左侧有共同的跳跃点，右侧有指数延长线的特征；这种分布经常用于模拟许多有非常长的延伸曲线的经验现象，例如一个社会的收入分配问题，城市人口规模，自然资源出现，股票价格波动，公司的大小，慧星的亮度，以及在交通线路中一系列的堵塞。

Pearson Type V(皮尔逊V分布):皮尔逊V分布通常用于描述完成一些任务所需要的时间;从分布密度看上去类似于Lognormal的形状，但是在X接近于零时有一个较大的极点。

Pearson Type VI(皮尔逊VI分布):皮尔逊V分布通常用于描述完成一些任务所需要的时间;在零的左侧，分布连续并且是确定的；在零的右侧分布不确定。

Poisson(泊松分布):泊松分布主要是模拟事件的比率;例如，每分钟电话的数量，每页中出现错别字的数量或一定时间内系统中事件出现的次数。注意在排队理论中，事件到达的比率通常定义单位时间的泊松到达，这种分布原理与指数分布比较相似。

Power Function:功能函数在两侧都是在存在的，并且含有的值不可能为负数，均匀分布是功能函数分布的一种特殊情况。

Rayleigh:Rayleight经常代表寿命(有效周期),因为它的危险率随着时间而加快增加；例如，真空管的寿命。它在左侧跳跃，并且有较长的延长线。

Triangular:通常比标准的分布更适合代表商业过程，因为它提供了实际价值最准确的初步评估。常用于处理过程仅有三个特征信息（最大值、最小值和最可能的平均值）已知的情况。

均匀分布（整数或常数）：均匀分布(整数或实数)用来描述在特定的取值范围内所有的值都是可能的；如果关于任务的信息很少的话，通常用来描述某一任务活动的持续时间。

韦伯分布：Weibull主要用来描述产品寿命周期和项目的可靠性问题，例如机械设备损坏的时间间隔(TBF)和维护周期(TTR)。

    原文作者：Codlife一王家二公子
    原文地址: https://www.jianshu.com/p/7ad5486a3e80
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。