python – 在scikit-learn中保存新数据的特征向量

为了创建机器学习算法,我制作了一个词典列表,并使用scikit的DictVectorizer为每个项目制作一个特征向量.然后,我使用部分数据从数据集创建SVM模型进行训练,然后在测试集上测试模型(您知道,这是典型的方法).一切都很好,现在我想将模型部署到野外,看看它是如何工作的新的,未标记的,看不见的数据.如何保存特征向量以使新数据具有相同的大小/特征并与SVM模型一起使用?例如,如果我想训练单词的存在:

[{
 'contains(the)': 'True',
 'contains(cat)': 'True',
 'contains(is)': 'True',
 'contains(hungry)': 'True'
 }...
]

我训练的列表中有相同的句子,有数千种动物变种.当我对列表进行矢量化时,它会考虑所有提到的不同动物,并在每个动物的矢量中创建一个索引(”’,’是’和’饥饿’不会改变).现在,当我尝试在新句子上使用模型时,我想预测一个项目:

[{
 'contains(the)': 'True',
 'contains(emu)': 'True',
 'contains(is)': 'True',
 'contains(hungry)': 'True'
 }]

没有原始训练集,当我使用DictVectorizer时,它会生成:(1,1,1,1).这是用于训练我的模型的原始向量之外的几千个索引,因此SVM模型将无法使用它.或者即使向量的长度是正确的,因为它是在大量句子上训练的,因此这些特征可能与原始值不对应.如何获得新数据以符合训练向量的维度?永远不会有比训练集更多的功能,但并不是所有功能都保证存在于新数据中.

有没有办法使用pickle来保存特征向量?或者我考虑过的一种方法是生成一个字典,其中包含值为’False’的所有可能特征.这会强制新数据进入正确的矢量大小,并仅计算新数据中存在的项目.

我觉得我可能没有充分描述这个问题,所以如果有些事情不清楚,我会尝试更好地解释它.先感谢您!

编辑:感谢larsman的回答,解决方案非常简单:

from sklearn.pipeline import Pipeline
from sklearn import svm
from sklearn.feature_extraction import DictVectorizer

vec = DictVectorizer(sparse=False)
svm_clf = svm.SVC(kernel='linear')
vec_clf = Pipeline([('vectorizer', vec), ('svm', svm_clf)])
vec_clf.fit(X_Train,Y_Train)
joblib.dump(vec_clf, 'vectorizer_and_SVM.pkl') 

管道和支持向量机被训练成数据.现在,所有未来的模型都可以取消管道,并在SVM中内置了一个特征向量器.

最佳答案

How do I get new data to conform to the dimensions of the training vectors?

通过使用transform方法而不是fit_transform.后者从您提供的数据集中学习新的词汇表.

Is there a way to use pickle to save the feature vector?

挑选训练有素的矢量化器.更好的是,制作矢量化器的管道和SVM并腌制它.您可以使用sklearn.externals.joblib.dump进行有效的酸洗.

(旁白:如果你传递布尔值True而不是字符串“True”,矢量化器会更快.)

点赞