最近在做爬虫的时候,发现部分网页爬出来的数据是乱码(网易新闻)。 搞了半天,最后发现网易新闻的编码格式是GBK不是UTF-8。 查看网页的编码格式的方法就是:
1、在网页按F12,打开开发者工具
2、在console 中输入“document.charset”查看页面编码,如下
》document.charset
》"UTF-8"
3、设置spider的编码格式
python
req = requests.get(url)
req.encoding="UTF-8"
最近在做爬虫的时候,发现部分网页爬出来的数据是乱码(网易新闻)。 搞了半天,最后发现网易新闻的编码格式是GBK不是UTF-8。 查看网页的编码格式的方法就是:
1、在网页按F12,打开开发者工具
2、在console 中输入“document.charset”查看页面编码,如下
》document.charset
》"UTF-8"
3、设置spider的编码格式
python
req = requests.get(url)
req.encoding="UTF-8"