【译】特征工程最佳实践

2024年3月19日 255次阅读来源: zhongkailv

本文是译文，可以转载，但需注明出处，点击这里可以获取原文，有删减。

机器学习中，特征工程是创建新特征，能有效提高模型性能的方法之一。

特征工程比较困难，耗时且需要领域专业知识。
应用机器学习的基础是特征工程。 ———吴恩达

通过特征工程，可以区分出哪些是主要信息，突出特征模式，引进领域专业知识。毫无疑问，特征工程的无限制性使得特征工程构建者很容易陷入僵局。
接下来，我们将讨论几个常见的特征工程构建方法。
什么是特征工程？
特征工程是一个非正式的主题，业界也有许多有关它的定义。而我们对特征工程的定义——为了提高模型性能，从已存在的特征中构建新特征的过程。
以下是典型数据科学过程：

确定项目范围/数据收集
探索分析
数据清洗
特征工程
模型训练（包括交叉验证和模型调参）
项目交付/获得洞察

什么不是特征工程？
以下数据处理技术不纳入特征工程讨论范围：

收集原始数据
创建目标变量
去除重复值，处理缺失值及修复错误值
数据标准化
特征选择和PCA（主成分分析）

接下来开启我们的特征工程之旅。
指示变量
第一种特性工程使用指示变量来获取关键信息。也许你会问：“模型不是能自己识别哪些是关键信息么？”
有时候的确能，但并不是所有时候都可以——这取决于数据的样本量。在建模之前可以构建如下指示变量：

阈值型指示变量：假设正在研究美国市民的酒精偏好，而数据集中有“age”变量。此时，我们可以建立“age >= 21”变量来区分那些合法饮酒年龄之上的公民；
多特征型指示变量：如果你正在研究不动产价格，且你有“n_bedrooms”和“n_bathrooms”变量。如果在租赁房屋时，2个床位和2个浴室意味着非常有优势，则可以构建相应的指示变量来标识它们；
特殊事件指示变量：在预测电商网站周销量时，可以构建两个指示变量——黑色星期五和圣诞节；
组内指示变量：网站转化分析中，若数据集中含有“traffic_source”类别型变量。我们可以构建“paid_traffic”指示变量来标识”Facebook Ads”或”Google Adwords”的流量来源。

交叉变量
第二种特性工程使用变量间的交叉信息来获取数据关键信息。
也许你听过这句名言——整体大于局部。的确如此，组合变量带来的信息通常比单个变量本身的信息要多。
特别地，可以留心观察变量之间的和，差，积和商。

说明：不推荐构建所有变量之间的交叉变量，这样做会导致“特征暴增”。

变量之和：如果想通过基础销售数据来预测税收，若数据集中含有“sales_blue_pens ”变量和“sales_black_pens”变量。这时可以构建“sales_pens”变量来表示两者之和；
变量之差：可以通过“house_built_date”变量和“house_purchase_date”变量来构建“house_age_at_purchase”变量；
变量之积：在价格数据集中，可以通过“price”变量和“conversion”变量来构建“earnings”变量；
变量之商：若营销活动数据中含有“n_clicks”变量和“n_impressions”，可以构建“click_through_rate”变量表示两者之商，据此可以对比不同营销活动的营销效果。

特征代表
第三种特性工程在数据预处理中也比较有效——特征代表。
原始数据中的数据集通常不是以理想格式存入的，这时同一数据的不同格式通常含有不同的信息。

日期及时间特征：对于“purchase_datetime”变量，可以构建“purchase_day_of_week”变量和“purchase_hour_of_day”变量，也可以构建聚合变量——“purchases_over_last_30_days”变量；
数值变量离散化：我们可以通过“years_in_school”变量构建“grade”，以便区分“Elementary School”，“Middle School”和“High School”；
稀疏类别聚合化：离散型变量中，一些类别可能含有较少的样本数，可能把较少样本的类别合并成“Other”类；
哑变量：根据模型的需要，可能把离散型变量转换成哑变量。

注意：“稀疏类别聚合化”操作永远在“哑变量”操作之前。

外部数据
接下来介绍另一种可以引起模型性能突破的特征工程——外部数据。
许多机器学习可以从外部数据中获益，如：

时间序列数据：时间序列数据最大的好处是只需构建一个“date”变量即可把别的数据集分层；
外部API：许多API都可以帮助你构建特征工程。如：Microsoft Computer Vision API可以返回图片中脸的张数；
地理编码：可以对“street_address”，“city”和“state”进行地理编码，从而获得“latitude”和“longitude”，并通过其它数据获得当地人口统计资料，如：“median_income_within_2_miles”变量；
其它资源：Facebook跟踪像素，Google Analytics以及其余第三方软件。

误差分析（建模后）
最后一类特征工程发生在建模后——误差分析。
误差分析泛指一类技术——分析模型中错误分类或高错误率的样本，并决定下一步的改进方向的一类技术。
下一步改进方向可能有收集更多的数据，问题分裂化，构建新的特征工程等。在进行误差分析之前，必须弄清楚模型为什么会失效。我们可以做以下工作：

从拥有更大误差的样本入手：误差分析是典型的手动处理处理过程，一般没有时间对每一个样本进行仔细分析。推荐从拥有更大误差的样本入手，从而找出相应的特征，并据此构建出新的特征工程；
用类别对样本进行分割：另一种技术是分割样本，并计算每组样本的平均误差。可以根据这些分组的最高误差来建立指示变量；
非监督聚类：如果不能定位错误分类样本的特征，可以对这些样本施加非监督聚类算法，不推荐盲目地把这些聚类划分成新的特征，但这样做可以更快地定位到错误分类样本的特征。记住，我们的目标是找到模型误分的原因；
寻求同事或领域专家的帮助：作为其他三种技术的补充，寻求同事或领域专家的帮助通常也可以使我们获益。

良性特征
良性特征通常具有如下特点：

可以从将来的观测中计算获得；
具有可解释性；
可通过领域知识或探索性分析获知；
具有潜在的可预测性；
不包含目标变量信息。

    原文作者：zhongkailv
    原文地址: https://segmentfault.com/a/1190000010524429
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。