【Machine Learning】回归学习与示例

回归学习(Regression Learning),又称为回归分析(Regression Analysis),是一种近似方法,从未知概率分布的随机样本中获得目标函数。

一、基本原理

变量之间的相互关系可以分为确定性和非确定性两大类,前者存在明显的函数关系,如线性函数。后者的变量之间存在关系但不完全确定,在某种随机干扰下产生统计关系们无法获得精确的数学函数关系。对于存在统计关系的变量,通过大量试验获取相关统计数据,并构造目标函数并逼近该关系,即回归学习。

《【Machine Learning】回归学习与示例》为s(s是正整数)维欧氏空间,对于随机变量《【Machine Learning】回归学习与示例》,回归学习研究的是x的函数值对y的依赖性,即寻找一个函数《【Machine Learning】回归学习与示例》,使得f(x)在极小化预测平方的期望或L2风险的前提下,能够较好的逼近y,函数f(x)称为回归函数。

由于,

《【Machine Learning】回归学习与示例》

《【Machine Learning】回归学习与示例》《【Machine Learning】回归学习与示例》上的任意一个可测函数,用v表示x的方向分布可知:

《【Machine Learning】回归学习与示例》

根据L2风险极小化可知,回归函数是最好的预测函数,即

《【Machine Learning】回归学习与示例》

当且仅当

《【Machine Learning】回归学习与示例》

极小化时,函数f为回归函数较好的预测函数。

在实际的应用中,样本分布往往未知,回归函数通常也未知。但是,样本可以根据同一分布采样,此时回归学习转化为所谓的回归统计问题。

《【Machine Learning】回归学习与示例》

为XxY上独立分布的样本点集合,回归估计的目标是构造回归函数的一个估计子《【Machine Learning】回归学习与示例》,使得L2误差最小,即

《【Machine Learning】回归学习与示例》

最小化。


二、回归类型

2.1 参数回归

如果随机变量间的相关函数类型已知,但是相关参数未知,根据样本值估计这些参数的过程称之为参数回归。线性和非线性回归都是典型的参数回归。如:

《【Machine Learning】回归学习与示例》

2.2 非参数回归

在实际应用中,很多随机变量之间的关系难以用确定的相关函数类型进行描述,在引入大量参数的情况下仍然不能减少估计误差,这时可以采用非参数回归模型。非参数回归模型对回归函数的形式没有特别的要求。对(x,y)的分布没有严格的规定,而是根据数据本身确定模型结构。

2.3 半参数回归

在有些情况下,使用使用线性回归模型拟合数据的效果较差,如果用非参数回归模型又会失去太多信息,于是就出现了参数部分和非参数部分相结合的半参数回归模型:

《【Machine Learning】回归学习与示例》

式中,x为自变量,β为待估计参数,g(x,β)为表达式已知的函数,u(t)为未知函数, ε 为随机误差。    


三、算法优化

3.1 线性回归模型


3.2 多项式回归模型


3.3 主成分回归模型


3.4 自回归模型


3.5 核回归模型


四、求解回归模型的方法

4.1 最小二乘法


4.2 修正的Gauss-Newton法


4.3 有理插值法





未完待续。。。

点赞