BeautifulSoup 解析中文网页乱码问题

2023年4月24日 59次阅读来源: Profeel

import urllib2
from BeautifulSoup import BeautifulSoup

page = urllib2.urlopen('http://www.leeon.me');
soup = BeautifulSoup(page,fromEncoding="gb18030")

print soup.originalEncoding
print soup.prettify()

如果中文页面编码是gb2312，gbk，在BeautifulSoup构造器中传入fromEncoding=”gb18030″参数即可解决乱码问题，即使分析的页面是utf8的页面使用gb18030也不会出现乱码问题！

转自：http://leeon.me/a/beautifulsoup-chinese-page-resolve

    原文作者：Profeel
    原文地址: https://segmentfault.com/a/1190000000694868
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。