Beautiful Soup入门 Beautiful Soup是一个Python库,用来解析html和xml结构的文档。具体关于Beautiful Soup的介绍与使用,可以参考以下资料: Python爬虫利器二之Bea…
标签:python爬虫
python爬虫(6)爬取糗事百科
最近学习一段时间Python了,网上找个项目练练手,网上很多写爬取糗事百科段子的例子, 所以就拿过来试一试 之前看到的例子, 直接down下来运行,结果好多错误,需要自己调试, 但是总体思路是没错的, 今天就从头到尾再次…
Python Re注意问题(持续更新)
PS本文不是讲解基础的 1.比较match和search的区别 search(pattern,string,flags=0) match(pattern,string,flags=0) match()在字符串的的开始位置…
python爬虫(10)身边的翻译专家——获取有道翻译结果
本文目的:使用python 实现翻译效果 思路:有道翻译可以直接翻译内容,观察它的网页内容以及URL可以发现,它的基本url 和将要翻译的内容组合起来就是最后翻译的页面 比如: 有道中英文翻译的网址是:http://di…
爬虫技术详解(一)- XPath
XPath简介 以下摘自维基百科 XPath (XML Path Language) is a query language for selecting nodes from an XML document. In ad…
python爬虫(1)下载任意网页图片
可以下载任意网页图片 本文是一个万能油, 当然本身也存在很多缺陷,因为本身写的正则表达式比较简单 但是作为爬虫的练手项目, 以及本事的思路还是很有借鉴意义的 #!/usr/bin python #--*-- coding…
url请求下载文件的几种方法
1. 一般页面 比如 url = 'http://www.baidu.com/' 下载页面 import urllib.request url = 'http://www.baidu.com/' response = u…
正则式(常用匹配,非贪婪,修饰符,re库函数)
一、常用的匹配规则总结: 模式 描述 \w 匹配字母数字及下划线 \W 匹配非字母数字及下划线 \s 匹配任意空白字符,等价于 [\t\n\r\f]. \S 匹配任意非空字符 \d 匹配任意数字,等价于 [0-9] \D…
python爬虫(9)获取动态搞笑图片
有时候看到一些喜欢的动图,如果一个个取保存挺麻烦,有的网站还不支持右键保存,因此使用python来获取动态图,就看看就很有意思了 本次爬取的网站是 居然搞笑网 思路: 获取当前页面内容 查找页面中动图所代表的…
【小白学爬虫连载(6)】--Selenium库详解
欢迎大家关注公众号【哈希大数据】 Selenium库是Python的自动化测试工具,它支持多种浏览器包括Chrome、Mozilla Firefox、PhantomJS等。在爬虫中主要解决因为利用JavaScript渲染…
python爬虫系列之 requests: 让 HTTP 服务人类
一、安装requests库 pip install requests 二、简单的请求 requests支持所有的HTTP请求,以最常用的get方法为例: import requests url = 'https://ww…
python爬虫(11)身边的搜索专家——获取百度搜索结果
使用python来抓取百度搜索的内容 思路: 1.进入百度首页,获取百度首页页面内容 2.通过正则,或者其他方式定位到搜索框输入栏,输入将要搜索的内容 3.获取搜索页面 4.通过正则表达式或者其他形式, 获取搜索界面的搜…