分类：python爬虫

python爬虫（6）爬取糗事百科

最近学习一段时间Python了，网上找个项目练练手，网上很多写爬取糗事百科段子的例子，所以就拿过来试一试之前看到的例子，直接down下来运行，结果好多错误，需要自己调试，但是总体思路是没错的，今天就从头到尾再次…

PS本文不是讲解基础的 1.比较match和search的区别 search(pattern,string,flags=0) match(pattern,string,flags=0) match（）在字符串的的开始位置…

本文目的：使用python 实现翻译效果思路：有道翻译可以直接翻译内容，观察它的网页内容以及URL可以发现，它的基本url 和将要翻译的内容组合起来就是最后翻译的页面比如：有道中英文翻译的网址是：http://di…

XPath简介以下摘自维基百科 XPath (XML Path Language) is a query language for selecting nodes from an XML document. In ad…

可以下载任意网页图片本文是一个万能油，当然本身也存在很多缺陷，因为本身写的正则表达式比较简单但是作为爬虫的练手项目，以及本事的思路还是很有借鉴意义的 #!/usr/bin python #--*-- coding…

1. 一般页面比如 url = 'http://www.baidu.com/' 下载页面 import urllib.request url = 'http://www.baidu.com/' response = u…

一、常用的匹配规则总结：模式描述 \w 匹配字母数字及下划线 \W 匹配非字母数字及下划线 \s 匹配任意空白字符，等价于 [\t\n\r\f]. \S 匹配任意非空字符 \d 匹配任意数字，等价于 [0-9] \D…

有时候看到一些喜欢的动图，如果一个个取保存挺麻烦，有的网站还不支持右键保存，因此使用python来获取动态图，就看看就很有意思了本次爬取的网站是居然搞笑网思路：获取当前页面内容查找页面中动图所代表的…

欢迎大家关注公众号【哈希大数据】 Selenium库是Python的自动化测试工具，它支持多种浏览器包括Chrome、Mozilla Firefox、PhantomJS等。在爬虫中主要解决因为利用JavaScript渲染…

一、安装requests库 pip install requests 二、简单的请求 requests支持所有的HTTP请求，以最常用的get方法为例： import requests url = 'https://ww…

使用python来抓取百度搜索的内容思路： 1.进入百度首页，获取百度首页页面内容 2.通过正则，或者其他方式定位到搜索框输入栏，输入将要搜索的内容 3.获取搜索页面 4.通过正则表达式或者其他形式，获取搜索界面的搜…

为什么要用配置文件如果代码中没有任何的配置文件，而程序内部本身就是黑盒，内部细节无法探知。一旦遇到需要修改某些参数，不仅耗费精力，而且还需要重新剖析代码，重新编译，容易引发问题。另外，如果发布了代码，需要做适配，…