图片分类-小白的煎熬历程

图片分类

目的

设计实现

数据源
取最新的图片,使用第三方服务识别文字图片,得到8W张图片,其中4W文字图片,4W非文字图片;
图片预处理
小数据量:
将图片转化数据压缩为zip文件;
或者将图片压缩为csv文件;
大数据量:
1)统一图片格式
比如RGB,在本数据中有灰度图片,需转换为RGB文件;
2)统一图片维度
方式一:压缩图片;
方式二:保留图片原始比例,空缺则补充空白;
3)图片转tfrecord文件
a、将图片统一转成单通道数据;
b、数据存储形式: dict[img_raw,label] ,训练集train.tfrecord,测试集test.tfrecord
使用tfrecord文件比直接读取图片快;
CNN训练
图片输入数据:
1)训练集7W,其中3.5W大字报,3.5W非大字报;
2)测试集1W,其中5K大字报,5K非大字报;
3)图片shape(-1,28,28,1)单通道
卷积参数:
1)卷积核大小=5*5,步长=1;
2)池化核大小=2*2,步长=2,池化方式=最大池化;
3)激活函数:RELU;
4)损失函数:交叉熵损失函数;
5)经过二层网络,shuffle=true,batch_size=64
训练效果
训练效果:
WPAI环境下,图片维度28维,迭代次数1001次,效果如下表:
迭代次数 | 准确率
0 accuracy= 0.46875
100 accuracy= 0.875
200 accuracy= 0.9375
300 accuracy= 0.90625
400 accuracy= 0.984375
500 accuracy= 0.921875
600 accuracy= 0.953125
700 accuracy= 0.953125
800 accuracy= 0.90625
900 accuracy= 0.90625
1000 accuracy= 0.953125
图片维度=112时,平均准确率=0.55;
问题

总结

    原文作者:千叶树
    原文地址: https://segmentfault.com/a/1190000020061681
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞