Chapter 2.2 各种Loss Function的比较

2019年5月5日 310次阅读来源: vincehxb

本小节介绍一些常见的loss函数

1. l1_loss&l2_loss

衡量预测值与真实值的偏差程度的最常见的loss：误差的L1范数和L2范数

因为L1范数在误差接近0的时候不平滑，所以比较少用到这个范数

L2范数的缺点是当存在离群点（outliers)的时候，这些点会占loss的主要组成部分。比如说真实值为1，预测10次，有一次预测值为1000，其余次的预测值为1左右，显然loss值主要由1000主宰。

《Chapter 2.2 各种Loss Function的比较》

2.Huber Loss:

Huber Loss经常用于回归问题，相比与l2 loss,其对离群点（outliers)没有那么敏感（因为如果残差太大的话，由于是分段函数，loss为残差的线性函数）

函数定义：

《Chapter 2.2 各种Loss Function的比较》

其中其中tao是一个设定的参数，y表示真实值,f(x)表示预测值。

这样做的好处是当残差（residual）很小的时候，loss函数为l2范数，残差大的时候，为l1范数的线性函数

Pseudo-Huber loss function：Huber loss 的一种平滑近似，保证各阶可导

《Chapter 2.2 各种Loss Function的比较》

其中tao为设置的参数，其越大，则两边的线性部分越陡峭

《Chapter 2.2 各种Loss Function的比较》

3.Hinge Loss

合页损失常用于二分类问题，比如ground true ：t=1 or -1,预测值 y=wx+b

在svm分类器中，定义的hinge loss 为

《Chapter 2.2 各种Loss Function的比较》

也就是说当y越接近t的时候，loss越小

《Chapter 2.2 各种Loss Function的比较》 hinge loss

扩展：

可以将上面的二分类loss函数扩展成C分类的loss函数

《Chapter 2.2 各种Loss Function的比较》

注意S=X*W+b shape( X: (N,D), W:(D,C), b:(C,) )

s_j= x_i*w_j+b 也就是为j类的分数，s_yi=x_i*w_yi+b 也就是yi类的打分

注意ground true的标签为 yi

其中 x_i（shape ：1*D）可以表示第i张图片，w_j（shape：D*1）表示第j类的权重参数

理想情况下我们希望的是错误分类的打分最小，正确分类的打分最大

这种情况下 s_j – s_yi 小于0，则这时候 loss趋于0

同时可以想象，因为打分函数是线性的 y=x*w+b,那么假如w_0能够正确分类这些图片，那么w_1=2 *w_0也能够正确的分类图片（仔细理解上面的公式，w_1让s_j-s_yi负的更多，但最后结果因为是负数所以都是0，所以 w_1和w_0都能够正确的分类。为了避免这种不确定性，一般会加入惩罚项来约束参数w,使得参数w尽可能的小

《Chapter 2.2 各种Loss Function的比较》