想上热门榜单？看Python程序猿怎么做的！

2019年5月19日 224次阅读来源: 松珏

今天打开了手机，看到了许许多多的排行榜，其中看到我的步数竟然又少于隔壁老王，我一想这不行，我得弄个刷排行榜的程序来超过他，经过一段时间的构思，我决定做个更全面的，直接做个能刷全部排行榜的神器，以后就在也不怕跟别人比排名了，嘿嘿嘿！

《想上热门榜单？看Python程序猿怎么做的！》

大家想不想刷排行榜？

如果答案是肯定的，就别再犹豫了，快来动手吧！

背景

theano 是一个python语言的库，实现了一些机器学习的方法，最大的特点是可以就像普通的python程序一样透明的使用GPU

《想上热门榜单？看Python程序猿怎么做的！》

输入数据修改

原来是从cPickle导入：

《想上热门榜单？看Python程序猿怎么做的！》

valid_set是用来在SGD迭代过程中，用来验证效果但不参与训练的数据集。每次只有确定在valid_set上更有效，才继续进行目标函数的优化，这样可以防止过拟合。参见early-stopping [2] 。

设定数据集的大小，如果是调试模式则减小数据集。

《想上热门榜单？看Python程序猿怎么做的！》

MNIST共有7w条记录，其中6w是训练集，1w是测试集。theano的样例程序就是这么做的，但kaggle把7w的数据分成了两部分，train.csv一共42000行，test.csv一共28000行。实际可用来训练的数据只有42000行（由此估计最后的效果也会有相应的折扣）。theano把6w的训练集分为了5w的test_set和1w的valid_set，我在这里把42000行数据分为36000的train_set、5000行的valid_set和1000行的test_set（训练时用不到）。

《想上热门榜单？看Python程序猿怎么做的！》