那些年我们写过的爬虫
从写 nodejs 的第一个爬虫开始陆陆续续写了好几个爬虫,从爬拉勾网上的职位信息到爬豆瓣上的租房帖子,再到去爬知乎上的妹子照片什么的,爬虫为我打开了一扇又一扇新世界的大门。除了涨了很多姿势之外,与网管斗智斗勇也是一个比较有意思的事情。这篇文章就简单来分享一下那些年我们写过的爬虫吧。
记一次 Python 编码的坑
这次又遇到了 Python 编码导致的问题,与 PyTips 0x07~0x09 中解释过的 Unicode – Bytes 不同,这次遇到的是另外一种情况。
Python 抓取微信公众号账号信息
搜狗微信搜索提供两种类型的关键词搜索,一种是搜索公众号文章内容,另一种是直接搜索微信公众号。通过微信公众号搜索可以获取公众号的基本信息及最近发布的10条文章,之前写过一篇《Python 抓取微信公众号文章》,今天来抓取一下微信公众号的账号信息(→ 先看结果(2998条) ←)。…
JSON 的正确用法:Python、MongoDB、Js 与 Ajax
本文主要总结网站编写以来在传递 JSON 数据方面遇到的一些问题以及目前采用的解决方案。网站数据库采用 MongoDB,后端是 Python,前端采用 “半分离” 形式的 Riot.js,所谓半分离,是说第一页数据是通过服务器端的模板引擎直接渲染到 HTML 中,从而避免首页两次加载的问题,而其它动态内容则采用 Ajax 加载。整个流程中数据都是通过 JSON 格式传递的,但是在不同的环节中需要采用不同的方式并遇到一些不同的问题,本文主要做记录、总结。
Python 异步网络爬虫 I
本文主要讨论下面几个问题: 什么是异步(Asynchronous)编程? 为什么要使用异步编程? 在 Python 中有哪些实现异步编程的方法? Python 3.5 如何使用 async/await 实现异步网络爬虫? 所谓异步是相对于同步(Synchronous)的概念来说…
用 100 行 Python 代码写个垃圾邮件过滤器
While doing this hands-on exercise, you’ll work with natural language data, learn how to detect the words spammers use automatically, and learn how to use a Naive Bayes classifier for binary classification.
I don’t understand Python’s Asyncio
Pocoo Team 成员对 Python 3 引入的 Asyncio 标准库的看法。
用 Python 将 GIF 倒放
这次让我们一个用 Python 做一个小工具:将动态 GIF 图片倒序播放!
GWPY:发现引力波的机构使用的 Python 包
美国科学家 11 日宣布,他们去年 9 月首次探测到引力波。这一发现印证了物理学大师爱因斯坦 100 年前的预言。宣布这一发现的,是激光干涉引力波天文台(LIGO)的负责人。
这个机构诞生于上世纪 90 年代,进行引力波观测已经有近 30 年。那么观测到的引力波数据的量应该很大,科学家如何对这些数据进行分析?有没有用到 Python 编程语言?
使用Python进行并发编程-我为什么不喜欢Gevent
在Python的发展历史中,有过一些失败的修复CPython的缺陷和提高性能的尝试,比如消除GIL、Stackless(一个微线程扩展,避免传统线程所带来的性能与复杂度问题)、psyco (被PyPy代替)、Unladen Swallow。当然也有少数成功的,比如PyPy。 协…
黑科技,Python 脚本帮你找出微信上删除你好友的人
一个脚本帮你找出来微信里面都有谁删除你好友关系,简直黑科技,建议心里素质不好的不要手贱尝试。
itchat:微信个人号 Python 接口
itchat 是一个开源的微信个人号接口,使用 python 调用微信从未如此简单。
程序员必知的Python陷阱与缺陷列表
python作为今年最火的语言,在程序员中掀起了学习狂潮,我们在学习的时候一定要防微杜渐别让这些小的陷阱漏洞阻碍了我们的进步
Python 抓取微信公众号文章
根据昨天发布的投票结果,看到大家对 Python 的爬虫专题比较感兴趣,因此把今天实践操作的一些内容与大家分享
[[译] 不可不知的一点 Python 陷阱](https://juejin.im/entry/57e13…
由于易于学习以及快速开发更大更复杂的应用,Python 渐渐在计算环境中无处不在。尽管明显的语言清晰度和友好会麻痹软件工程师和系统管理员的警觉性 —— 诱使他们编码可能会有严重安全隐患的错误。在这篇文章中,它主要针对 Python 新手,会看到少量安全相关的小技巧;有经验的开发者可能会注意到后面的特殊性。
awesome-raspberry-pi-zh(树莓派 (Raspberry Pi) 资源大全中文版)
树莓派 (Raspberry Pi) 资源大全中文版 , 包括工具、项目、镜像、资源等
Python 异步调用命令行工具
相关阅读:Python 异步网络爬虫 I | Python 异步网络爬虫 II 当你在自己的 Python 程序中采用了基于事件循环的异步编程方法之后,你就会发现自己不自觉地被其牢牢吸引住,并不是说这一方法多么棒,而是因为你不得不想办法保证程序中的任意环节都不能是阻塞的! 例如…
Python 知乎爬虫(最新)
知乎现在改用 https 请求了,数据加密,但是问题不大,重要的是网页数据改动了,而且在请求时后台会对爬虫做一些判断,因此在每次请求是都需要加上 request header,尽可能接近浏览器请求的样子。
Python 异步网络爬虫 II
上一部分(Python 异步网络爬虫 I)整理了如何利用 aiohttp 和 asyncio 执行异步网络请求,接下来我们将在此基础上实现一个简洁、普适的爬虫框架。
听说你会 Python ?
最近觉得 Python 太 “简单了”,于是在师父川爷面前放肆了一把:“我觉得 Python 是世界上最简单的语言!”。于是川爷嘴角闪过了一丝轻蔑的微笑(内心 OS:Naive!,作为一个 Python 开发者,我必须要给你一点人生经验,不然你不知道天高地厚!)于是川爷给我了一份满分 100 分的题,然后这篇文章就是记录下做这套题所踩过的坑。