下文中介绍了一种相似图片搜索的算法,算法的思路如下:
1.把所有操作图片转换为8×8的灰度图片;
2.计算每张图片的指纹。把8×8总共64个像素点和其平均灰度值比较,大于平均值返回1,否则返回0,这样每张图都可以用64bit二进制数表示。
3.比较指定图片和搜索图片的指纹。通过汉明距来表征其差异。汉明距越大,表示这两幅图片差异越大。
代码如下,使用的python版本3.8.6
import glob
import os
from functools import reduce
from PIL import Image
EXTS = 'jpg', 'jpeg', 'JPEG', 'gif', 'GIF', 'png', 'PNG'
def avhash(im):
if not isinstance(im, Image.Image):
im = Image.open(im)
im = im.resize((8, 8), Image.ANTIALIAS).convert('L')
avg = reduce(lambda x, y: x + y, im.getdata()) / 64.
tmp_a = map(lambda i: 0 if i < avg else 1, list(im.getdata()))
tmp_b = list(tmp_a)
i = 0
c = 0
for dt in tmp_b:
c = c + (dt << i)
i = i +1
return c
def hamming(h1, h2):
h, d = 0, h1 ^ h2
while d:
h += 1
d &= d - 1
return h
if __name__ == '__main__':
h = avhash("cat.jpg")
wd = "cat"
os.chdir(wd)
images = []
for ext in EXTS:
images.extend(glob.glob('*.%s' % ext))
seq = []
for f in images:
seq.append((f, hamming(avhash(f), h)))
for f, ham in sorted(seq, key=lambda i: i[1]):
print ("%d\t%s" % (ham, f))