我有3个月的大约1万名客户的历史购买数据,我想使用这些数据来预测未来3个月的购买情况.我使用客户ID作为输入变量,因为我希望xgboost学习不同类别之间的个人支出.有没有办法调整,所以重点是根据每个个人购买了解更多?或者更好的解决这个问题的方法? 最佳答案 您可以使用权重向量,您可以在xgboost中传递权重参数;大小等于nrow(trainingData)的向量.然而,这通常用于惩罚分类错误中的错误(想想稀疏数据与只有销售说一个月左右的项目;你想学习销售然后你需要给予销售实例更多的权重,否则所有的预测将是零).显然你正试图调整我无法理解的自变量的权重.
学习因变量的行为(在你的情况下是销售)就是机器学习模型所做的,你应该让它完成它的工作.你不应该调整它来强制学习一些功能.对于学习购买行为,聚类类型的无监督技术将更有用.
要包括用户特定的行为,首先要做的是进行群集,并为每个用户识别索引不足和过度索引的类别.然后,您可以使用这些标志创建一些分类功能.
PS:一些解释你的问题的数据可以帮助别人更好地帮助你.