《科学背单词法》01-- CET4'6数据抓取

科学背单词法: 按 “真题中单词出现频率高到低”背诵。

一、前言:

方案: 针对高考、四六级、考研英语,爬取历年英语真题数据,进行数据分析,得到最权威的《真题单词词频表》。致力帮助没有放弃或想学好英语的人,让最疼头的背单词,变得有趣、科学。对于听力和口语单词词频表,后面有时间也会分析整理分享给最有需要的童鞋。

《《科学背单词法》01-- CET4'6数据抓取》 用这招分数猛增!!!

二、《科学背单词法》专题计划:

[1].考研英语历年真题数据爬取1_1、考研英语历年真题数据分析1_2

[2].英语四六级历年真题数据爬取2_1、英语四六级历年真题数据分析2_2

[3].高考英语历年真题数据爬取3_1、高考英语历年真题数据分析3_2

三、今天主题:英语四六级历年真题数据爬取2_1

(1)数据爬取前闲聊

1.1 目标网址http://www.xsfanwen.com/

《《科学背单词法》01-- CET4'6数据抓取》 1. 主网站页面

1.2 CET4真题http://www.xsfanwen.com/Class/sijixiazai/sijixiazai01.html

                            http://www.xsfanwen.com/Class/sijixiazai/sijixiazai02.html

《《科学背单词法》01-- CET4'6数据抓取》 2. cet4下载列表页面

1.3 CET6真题http://www.xsfanwen.com/Class/liujixiazai/liujixiazai01.html

                          http://www.xsfanwen.com/Class/liujixiazai/liujixiazai02.html

《《科学背单词法》01-- CET4'6数据抓取》 3. cet6下载列表页面

(2)查看网站代码分析

2.1 cet4真题下载链接页面

分析结果:下载链接全包含在id=”clickeye_content”的DIV标签里面

《《科学背单词法》01-- CET4'6数据抓取》 1. cet4真题下载链接分析页面

2.2 cet6真题下载链接页面

分析结果:下载链接全包含在id=”clickeye_content”的DIV标签里面

《《科学背单词法》01-- CET4'6数据抓取》 2. cet6真题下载链接分析页面

2.3 cet4真题内容展示页面

分析结果:真题内容全包含在id=”Ad”的DIV标签里面

《《科学背单词法》01-- CET4'6数据抓取》 3. cet4真题内容分析页面

2.4 cet6真题内容展示页面

分析结果:真题内容全包含在id=”Ad”的DIV标签里面

《《科学背单词法》01-- CET4'6数据抓取》 4. cet6真题内容分析页面

(3)分析清楚了,上代码(顺带说下思路:获取网页–>解析得真题下载链接–>获取真题内容网页–>解析得内容–>保存为文件–>大功告成!)

《《科学背单词法》01-- CET4'6数据抓取》 所有代码

四、结果展示

《《科学背单词法》01-- CET4'6数据抓取》 1.内容展示
《《科学背单词法》01-- CET4'6数据抓取》 2.四级目录
《《科学背单词法》01-- CET4'6数据抓取》 3.六级目录

五、闲聊

[1].代码截止2019-03-07调试无误。

[2].下一篇将今天爬取的所有真题数据,做数据分析–>得出词频排序表。

《《科学背单词法》01-- CET4'6数据抓取》 找对方法努力,才是越努力越幸运!

让知识或技术实现其最大的价值,欢迎收藏自用、转载分享,转载请注明原文出处,谢谢!

    原文作者:Andylalala
    原文地址: https://www.jianshu.com/p/8d693261a725
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞