今天爬拉钩,在写入网页源码到html时,总是报UnicodeEncodeError: ‘gbk’ codec can’t encode character错误
出错的原因是网页及python的编码都是utf-8,在写入文件时Windows默认转码成gbk,遇到某些gbk不支持的字符就会报错。在打开文件时就声明编码方式为utf-8就能避免这个错误。
解决方法十分简单:
f = open('lagou.html', 'w',encoding='utf-8')
使用open()函数时一定不要忘了加上encoding='utf-8'
参数