使用场景 web请求日志
对于标称型数据我们通常用信息熵或者基尼不纯度来判定混乱程度,对于数值型问题则用方差作为判断标准。
方法:
针对请求源ip进行聚合, 对聚合结果进行相似度度量
可以使用udaf 也可以使用udf 然后统计样本标准差
首先 计算聚合文本中每条的字符信息熵
使用udf函数计算信息熵的标准差\ 样本标准
计算方差和样本无偏方差区别
一个除以n 一个除以n-1
使用场景 web请求日志
对于标称型数据我们通常用信息熵或者基尼不纯度来判定混乱程度,对于数值型问题则用方差作为判断标准。
方法:
针对请求源ip进行聚合, 对聚合结果进行相似度度量
可以使用udaf 也可以使用udf 然后统计样本标准差
首先 计算聚合文本中每条的字符信息熵
使用udf函数计算信息熵的标准差\ 样本标准
计算方差和样本无偏方差区别
一个除以n 一个除以n-1