使用信息熵来确定文本相似度

使用场景 web请求日志

对于标称型数据我们通常用信息熵或者基尼不纯度来判定混乱程度,对于数值型问题则用方差作为判断标准。

方法:
针对请求源ip进行聚合, 对聚合结果进行相似度度量
可以使用udaf 也可以使用udf 然后统计样本标准差

首先 计算聚合文本中每条的字符信息熵
使用udf函数计算信息熵的标准差\ 样本标准

计算方差和样本无偏方差区别
一个除以n 一个除以n-1

    原文作者:yunpiao
    原文地址: https://www.jianshu.com/p/922342729aac#comments
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞