线性模型的基本形式

2023年2月18日 106次阅读来源: zlinzju

文章目录

- 线性模型的基本形式

线性模型的基本形式

线性模型Linear Model是监督学习中一种重要模型：
1.理论层面
Linear Regression是回归问题的基础
Logistic Regression是分类问题的基础
有一定局限性：高维空间输入（和全局函数的特性有关）
具有可扩展性：基函数方法使得线性模型能够解决非线性问题

PS：
1.深度模型结构的常用设计思路：线性模型+非线性激活函数，比如SVM+NN
2.分类输出离散的预测值，回归输出连续的预测值

2.应用层面
大量企业级的应用主要还是线性模型为主
工业环境中最大的局限来自于：模型训练的时间
理想的方式是把t时刻之前的数据都扔到模型里，但实际上训练时间和资源不够，所以需要了解模型更新的时间，比如5小时更新一次模型，那么训练时间必须小于5小时。假设模型A是一个SVM模型，现在有两个选择：a.train7天的数据10个维度，b.train一天的数据70维度，这两种选择扔进模型的数据总量是一样的；假设模型B是一个Linear Model，那么就可以train30天的10维数据，这样总的数据量更大了，更不容易过拟合，而且其实模型更简单本身需要的数据量反而更小，所以train的效果会更好。
e.g. Bing在2009年的核心排序模型是DNN，但后来改成了GBT。

Logistic Regression是工业界最常用的模型：
简单易训练
解释性好（参数直接反应了特征强弱），尤其金融领域很看重解释性
概率形式，适合预估

ML想做的是这么一件事：通过已有的历史数据，找到隐藏在事物背后的规律/模式。
当我们知道了规律之后，就可以进行预测了。
实际上，在一定的误差允许范围内，大部分的规律都可以通过线性模型来表示，非线性的规律也可以。

线性模型的“线性”

误区：线性模型学习出来的流形（划分超平面）只能是线性的
一些常见的错误说法：

线性和非线性的区别是是否可以用直线/线性超平面来划分开
f ( x ) = w 1 x 1 + w 2 x 2 + . . . w d x d + b f(x) = w1x1+w2x2+…wdxd+b f(x)=w1x1+w2x2+...wdxd+b 只有这种形式才是线性模型，因为每个自变量 x x x前面的参数 w w w只能影响一个x，而 w x 1 x 2 wx1x2 wx1x2 这种形式则不是线性模型

实际上，基函数的观点是，线性与否不是针对自变量x来看的，不是看 x x x的形式是否线性（ x 1 x1 x1是线性， x 1 2 x1^2 x12， x 1 x 2 x1x2 x1x2不是线性）
线性其实是针对参数 w w w来看的，只要 w w w是线性的( w 1 w1 w1是线性的， w 1 2 w1^2 w12， w 1 w 2 w1w2 w1w2非线性)，那么这个模型就是线性的
而x是怎样的反而无所谓，因为我们可以把 x x x加上一个基函数变成 φ ( x ) φ(x) φ(x)
因此 f ( x ) = w 1 x 1 + w 2 x 2 + . . . w d x d + b f(x) = w1x1+w2x2+…wdxd+b f(x)=w1x1+w2x2+...wdxd+b是线性模型，是因为这个方程针对 w w w来说是线性的
《线性模型的基本形式》

线性回归的基本形式

给定有 d d d 个属性（维度）的数据 x = （ x 1 ； x 2 ； . . . ； x d ） x=（x_1；x_2；…；x_d） x=（x1；x2；...；xd），其中 x i x_i xi 是 x x x 在第 i i i 个属性上的取值。
线性回归模型要学习一个可以通过属性的线性组合来进行预测的函数：

f ( x ) = w 1 x 1 + w 2 x 2 + . . . + w d x d + b f(x)=w_1x_1+w_2x_2+ … +w_dx_d+b f(x)=w1x1+w2x2+...+wdxd+b

写成向量形式为： f ( x ) = W T x + b f(x)=W^Tx+b f(x)=WTx+b

学习模型也就是学习 W W W和 b b b的值， W = ( w 1 , w 2 , . . . w d ) W=(w_1,w_2,…w_d) W=(w1,w2,...wd)，确定了参数值，就是确定了模型。

线性回归的目标

给定数据集 D = ( x 1 , y 1 ) , ( x 2 , y 2 ) , . . . , ( x m , y m ) D={(x_1,y_1),(x_2,y_2), … ,(x_m,y_m)} D=(x1,y1),(x2,y2),...,(xm,ym)
其中 x i = ( x i 1 ; x i 2 ; . . . ; x i d ) , y ∈ R x_i=(x_{i1}; x_{i2}; … ; x_{id}), y∈R xi=(xi1;xi2;...;xid),y∈R
线性回归就是要学习一个线性模型以尽可能准确的预测实值输出标记

单特征线性回归

单特征 f ( x i ) = w x i + b f(x_i)=wx_i+b f(xi)=wxi+b，目标 f ( x i ) ≈ y i f(x_i)≈y_i f(xi)≈yi
这里每个 x i x_i xi并不是 x i = ( x i 1 ; x i 2 ; . . . ; x i d ) x_i=(x_{i1}; x_{i2}; … ; x_{id}) xi=(xi1;xi2;...;xid)，而是只有 x i 1 x_{i1} xi1一个属性（特征），因此要学习的 w w w值只有一个，总共需要学习 w , b w,b w,b两个值即可。(一个 w w w对应一个特征)。

多特征线性回归（多元线性回归）

多特征 f ( x i ) = W T x i + b f(x_i)=W^Tx_i+b f(xi)=WTxi+b，目标 f ( x i ) ≈ y i f(x_i)≈y_i f(xi)≈yi

（通常把 b b b写作 W 0 W_0 W0，对应的增加一维 x 0 x_0 x0，值为1）

w 0 w_0 w0代表了什么？ w 0 w_0 w0实际是一种补偿
补偿了目标值的平均值（在训练集上计算的）与基函数的值加权平均值之间的差距，该参数使得数据中可以存在任意固定的偏置。
《线性模型的基本形式》

分类问题的基本解决思路

1.基于判别函数
学习一个分段函数（或者判别函数），这个函数把每个输入 x x x直接映射为类别标签，比如，二分类问题中，输出的 f ( . ) f(.) f(.)可能是一个二元的数值， f = 0 f=0 f=0表示类别C1, f = 1 f=1 f=1表示类别C2。该模型不考虑概率。

PS：分段函数不是连续的函数，因此train的时候无法使用凸优化，但这种无梯度的问题可以使用无梯度的方法来求解，比如蚁群算法、遗传算法。

2.基于判别式
输出一个向量，每一项对应了各个类别的概率（后验概率 P ( C k ∣ x ) P(C_k|x) P(Ck∣x)）
《线性模型的基本形式》
判别式模型又被称为最大后验方法，模型的输出是一个概率分布，称为后验概率：给定 x x x的时候，每一个类别 C k C_k Ck的概率

3.基于生成模型
不直接求后验，而是去求似然 P ( x ∣ C k ) P(x|C_k) P(x∣Ck)和先验 P ( C k ) P(C_k) P(Ck)，然后再由贝叶斯公式，从似然和先验的乘积等价地得到后验，是一个推断问题。在一个问题当中，先验是在你数据当中每一个类别所占的概率，是已知的；而似然是不同类别下面对应的x的比例也是已知的。而 p ( x ) p(x) p(x)其实是做标准化的，可以不管它。
3和2的不同之处在于2是直接求式子左边，而3是求式子右边，再使用贝叶斯公式得到左边。
《线性模型的基本形式》

    原文作者：zlinzju
    原文地址: https://blog.csdn.net/weixin_43026262/article/details/105181067
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。