特征选择的三种方法

2024年1月28日 126次阅读来源: Mr Gao

特征选择的三种方法

• 包装方法（wrapper method）是“围绕”着特定的预测模型建立的。每个特征子集用来训练一个模型。训练得到的模型的泛化性能可以为该子集评分。包装方法是计算密集型的，但通常为特定模型提供表现最佳的特征集。

• 过滤方法（filter method）使用代理度量而不是错误率为特征子集评分。常用的度量包括互信息和相关系数。许多过滤器提供特征的排名，而不是一个明确的最佳特征子集。

• 嵌入方法（embedd method）将特征选择作为模型构建过程的一部分。这种方法的一个例子是用于构建线性模型的 LASSO 方法，它带有回归系数的惩罚，使得其中许多系数收缩到零，从而相应的特征可以消除。另一种方法是递归特征消除，常与支持向量机一起使用，反复构建一个模型，并删除低权重的特征。

在以上三种方法的基础上，我们又得到两种变种方法

通过将过滤方法与包装方法相结合，人们可以用自底向上或自顶向下的方式进行处理。在一个自底向上的贪心式包含方法中，人们根据单个特征的识别能力的顺序来逐步添加特征，并通过验证组输出误差是否减少来检验效用。特征的最优数量可以用启发式的方法确定，即
验证集上测量的输出误差停止下降时的数量。实际上，如果超过该数量点时仍添加更多的特征，误差可能保持稳定，甚至因为过拟合而逐渐增加。

**在自顶向下的截断法中，**人们从完整的特征集开始，逐步消除特征，同时寻找最佳性能点（持续检查在一个合适的验证集上的误差）。

    原文作者：Mr Gao
    原文地址: https://blog.csdn.net/weixin_43327597/article/details/109795768
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。