使用chardet检测网页的编码

下载:http://download.csdn.net/download/aqwd2008/4256178

官方地址:http://pypi.python.org/pypi/chardet

如果采用源代码安装方法,有可能会提示缺少setuptools这个模块。因此这里我们采用另外一种更为方便的安装方法,不论你选择哪种安装包,将它解压得到其中的文件夹【chardet】将这个文件夹复制到【python安装根目录\Lib\site-packages】下,确保这个位置可以被python引用到。如果不能被引用到请加入环境变量。

测试网页编码

importurllib

rawdata = urllib.urlopen(‘http://gs.amac.org.cn/amac-infodisc/res/pof/manager/138.html’).read()

importchardet

fencoding= chardet.detect(rawdata)

print fencoding

另外一个高级的代码

importurllib

fromchardet.universaldetectorimportUniversalDetector

usock = urllib.urlopen(‘http://www.baidu.com/’)

#创建一个检测对象

detector = UniversalDetector()

for line in usock.readlines():

#分块进行测试,直到达到阈值

detector.feed(line)

ifdetector.done:break

#关闭检测对象

detector.close()

usock.close()

#输出检测结果

printdetector.result

运行结果:

{‘confidence’:0.99,’encoding’:’GB2312′}

    原文作者:SaveTheWorld
    原文地址: https://www.jianshu.com/p/145a41f6035f
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞