我有一个数据集,我发现依赖(目标)变量具有偏斜的分布 – 即有一些非常大的值和一个长尾.
当我运行回归树时,为大值观察创建一个终端节点,并为大多数其他观察创建一个终端节点.
是否可以记录转换依赖(目标)变量并将其用于回归树分析?当我尝试这个时,我得到了一组不同的节点和分割,它们似乎在每个桶中具有更均匀的观察分布.使用对数转换,Predicted vs. Observed的Rsquare值也非常好.换句话说,我似乎通过日志转换获得了更好的测试和验证性能.
只是想确保当因变量具有偏斜分布时,日志转换是一种可接受的运行回归树的方法.
谢谢 !
最佳答案 是.当目标变量具有偏斜分布时,对目标变量应用日志转换是完全正确的.话虽如此,您需要在预测值之上应用反函数以获得实际预测目标值.
此外,您已经测试过,通过转换,您可以更好地估算Rsquare错误.我假设您在使用指数函数反转日志后计算了RSquare.
有关详细信息,请参阅wiki link关于数据转换.
请注意,如果您的训练数据包含任何负目标值,则无法直接应用日志转换.您可能必须应用一些可以接受负值的其他函数.