python-2.7 – 如何使用scikit-learn执行整体(多分类器)分类?

我有一个相当有限的数据集,我使用scikit-learn进行监督学习,多类文本分类.为了略微减轻信息短缺,我想做以下事情:

>从我想要分类的内容中提取ngrams,将其与内容的unigrams合并并执行分类
>实施(或使用现有的实施)基于投票的集合分类器以提高分类准确性.例如,Multinomial Bayes和KNN似乎都为不同的类别提供了良好的结果:理想情况下,我会将这些结合起来,使得我的性能稍微好一点(并且希望不会更差)而不是粗略的~50%我可以使用我的有限数据集.

虽然第一步是微不足道的,但我无法找到如何使用scikit-learn进行整体分类.我已经注意到scikit-learn在集合类上有一些条目,例如this,但它似乎并不是我想要的.

有没有人知道使用scikit-learn做这个的具体例子?

最佳答案 我也在努力解决这个问题.经过大量的实验,我发现在sci-kit中进行整体分类的最佳方法是平均每个训练模型的clf.predict_proba(X)值.与任何单个模型相比,平均长期(50或更多)的表现更好

如果你可以保证你训练的一些模型比其他模型强,你可能还想看看使用加权平均值或多臂强盗合奏方法.

http://en.wikipedia.org/wiki/Multi-armed_bandit

点赞