我正在尝试使用不同的NLP功能进行一些KNN学习.
例如,我想使用词袋和本地POS标签.
另外,我对如何计算单个特征的相似性有所了解.就像使用余弦相似性计数(对于词袋矢量),或者使用汉明距离来表示POS标签.
但是,我不知道如何将两者结合起来.这个地区的人通常如何做到这一点?
有人可以帮我吗?
提前致谢.
最佳答案 我会使用两种功能的简单线性组合.因此,您使用余弦相似性单独比较词袋矢量,并使用汉明标记的汉明距离,然后取两个结果的平均值.因此,如果余弦比较和汉明距离导致以下等级:
rank score cosine Hamming
-------------------------------
1 red blue
2 blue yellow
3 yellow orange
4 orange red
然后是最终排名(考虑到你可以改变的排名得分,例如,如果你想更多地强调更高排名的标签,指数级别)将如下(得分越低越好):
label total score
--------------------
blue 3
red 5
yellow 5
orange 7
所以输出标签是蓝色的.在这种情况下,线性组合将50%的权重放在余弦相似度输出上,将50%的权重放在汉明距离输出上.您可以使用不同的权重(例如,70%余弦,30%汉明)进行测试,以找到两个度量之间的最佳平衡.