我是生物信息学的一个项目,我有大量的培训数据集.它由大约18,000个正面和1000个负面实例组成.如果我将此数据用作训练集,那么正实例将完全支配负实例.因此,在测试数据分类过程中,我的负面数据也被错误分类为正数.
是否有任何简单的方法来使这些正面和负面数据的平衡设置能够解决这个问题?
最佳答案 非常广泛的问题,但一般来说,您可以大致区分以下方法来处理过度拟合:
> regularization(特殊类型取决于您的近似值/分类器)
> early stopping(基于验证集)
> cross-validation(选择最有可能推广的模型)
在不平衡训练的情况下,已经报道了一个与所有分类器的集合产生了良好的结果(例如here).您也可以使用抽样技术(可以通过谷歌找到许多不同的命题).