机器学习 – 如何将不同的NLP功能结合起来进行机器学习?

我正在尝试使用不同的NLP功能进行一些KNN学习.

例如,我想使用词袋和本地POS标签.

另外,我对如何计算单个特征的相似性有所了解.就像使用余弦相似性计数(对于词袋矢量),或者使用汉明距离来表示POS标签.

但是,我不知道如何将两者结合起来.这个地区的人通常如何做到这一点?
有人可以帮我吗?

提前致谢.

最佳答案 我会使用两种功能的简单线性组合.因此,您使用余弦相似性单独比较词袋矢量,并使用汉明标记的汉明距离,然后取两个结果的平均值.因此,如果余弦比较和汉明距离导致以下等级:

rank score    cosine    Hamming
-------------------------------
1             red       blue
2             blue      yellow
3             yellow    orange
4             orange    red

然后是最终排名(考虑到你可以改变的排名得分,例如,如果你想更多地强调更高排名的标签,指数级别)将如下(得分越低越好):

label    total score
--------------------
blue     3
red      5
yellow   5
orange   7

所以输出标签是蓝色的.在这种情况下,线性组合将50%的权重放在余弦相似度输出上,将50%的权重放在汉明距离输出上.您可以使用不同的权重(例如,70%余弦,30%汉明)进行测试,以找到两个度量之间的最佳平衡.

点赞