从贝叶斯角度看L1及L2正则化

2019年5月18日 565次阅读来源: 石晓文的学习日记

首先写一下为什么会写这个吧，之前在看linUCB的一篇博客的时候，看到了这么一段话：

《从贝叶斯角度看L1及L2正则化》

纳尼！岭回归还可以从贝叶斯角度来得到呢！顿时觉得自己知识面太窄，暴露了自己渣渣的本质。既然知识面窄，那就废话不多说，恶补一波吧！本文涉及到的内容可能有点多，不过只要你能从头到尾读下来，相信你一定能够有所收获！

本文涉及的知识点有：
频率派和贝叶斯学派
概率和似然
拉普拉斯分布和正态分布
极大似然方法求线性回归
贝叶斯角度看L1和L2正则化

1、频率派和贝叶斯学派

频率派
频率派认为需要将推断的参数θ视作未知的定值，而样本X是随机的，其着眼点在样本空间，有关的概率计算都是针对X的分布。频率学派认为参数虽然我们不知道，但是它是固定的，我们要通过随机产生的样本去估计这个参数，所以才有了最大似然估计这些方法。

贝叶斯派
贝叶斯派把参数θ也视作满足某一个分布的随机变量，而样本X是固定的，其着眼点在参数空间，重视参数θ的分布，固定的操作模式是通过参数的先验分布结合样本信息得到参数的后验分布。

《从贝叶斯角度看L1及L2正则化》

贝叶斯学派强调人的先验的作用，即人以往认知的作用。并且通过不断增添新的知识，来更新以往的认知。举个例子来说：有一个袋子里面装了红球和黑球，在试验之前，我们已知这个袋子里面是5黑5红的概率是0.8，是10黑5红的概率是0.2，这个概率分布称为先验概率。之后观察者开始新的观测或实验（有放回抽取100次，得到80次黑的，20次红的）。经过中间的独立重复试验，观察者获得了一些新的观测结果，这些新的观测将以含有不确定性的逻辑推断的方式影响观察者原有的认识，即观测者一开始认为袋子里是5黑5红的可能性更大，但是经过了上面的事实之后，修正了原有的认识，认为是10黑5红可能性更大，此时的概率称为后验概率。

2、概率和似然

在我们继续进行下去之前，我们先来弄清楚两个概念：似然(likelihood)和概率(probability)。两者都是对可能性的表示。概率是在给定了一定参数值后，表示了一件事物发生的可能性；而似然则反其道而行之，是在给定了一系列结果后，表示了某一组参数值的可能性。那么最大似然估计的思想，就是在给定了一组结果后哪一组参数的可能性最大；反过来说，就是使用这样一组参数，出现给定结果的可能性最大。