图片分类-小白的煎熬历程

2024年4月11日 200次阅读来源: 千叶树

图片分类

目的

设计实现

数据源
取最新的图片，使用第三方服务识别文字图片，得到8W张图片，其中4W文字图片，4W非文字图片；
图片预处理
小数据量：
将图片转化数据压缩为zip文件；
或者将图片压缩为csv文件；
大数据量：
1）统一图片格式
比如RGB，在本数据中有灰度图片，需转换为RGB文件；
2）统一图片维度
方式一：压缩图片；
方式二：保留图片原始比例，空缺则补充空白；
3）图片转tfrecord文件
a、将图片统一转成单通道数据；
b、数据存储形式： dict[img_raw,label] ，训练集train.tfrecord，测试集test.tfrecord
使用tfrecord文件比直接读取图片快；
CNN训练
图片输入数据：
1）训练集7W，其中3.5W大字报，3.5W非大字报；
2）测试集1W，其中5K大字报，5K非大字报；
3）图片shape（-1，28，28，1）单通道
卷积参数：
1）卷积核大小=5*5，步长=1；
2）池化核大小=2*2，步长=2，池化方式=最大池化；
3）激活函数：RELU；
4）损失函数：交叉熵损失函数；
5）经过二层网络，shuffle=true，batch_size=64
训练效果
训练效果：
WPAI环境下，图片维度28维，迭代次数1001次，效果如下表：
迭代次数 | 准确率
0 accuracy= 0.46875
100 accuracy= 0.875
200 accuracy= 0.9375
300 accuracy= 0.90625
400 accuracy= 0.984375
500 accuracy= 0.921875
600 accuracy= 0.953125
700 accuracy= 0.953125
800 accuracy= 0.90625
900 accuracy= 0.90625
1000 accuracy= 0.953125
图片维度=112时，平均准确率=0.55；
问题

总结

    原文作者：千叶树
    原文地址: https://segmentfault.com/a/1190000020061681
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。