我正在尝试计算可执行文件上的字节熵.在将直方图作为数组后,我首先使用for循环来计算它.然后我尝试使用functools.reduce来加强一点点.有趣的是,我从相同的数组和相同的函数得到不同的结果,我想了解原因.
我将它简化为一个简单的循环和两行代码块但是,我无法理解为什么其中一个是错误的.我从for循环中比较了列表“prob”和“prob”的所有元素,所有值都是相同的.
calc_entropy = lambda e,p: e - p*math.log(p,256) if (p != .0) else e
prob = hist / bytes_len
e = functools.reduce(calc_entropy, prob)
和
e = .0
for freq in hist:
prob = freq / bytes_len
e = calc_entropy(e,prob)
其中一个给出0.813826598594107另一个是0.8605594205272858. “hist”是一个numpy.ndarray.
最佳答案 您的初始值不同.
在循环版本中,您首先应用calc_entropy(0,prob [0]),但使用reduce,您的第一个应用程序是calc_entropy(prob [0],prob [1]).您可以通过使用初始值调用reduce来更改它:reduce(calc_entropy,prob,0).