一、背景
最近老爱提及背景这两个字,似乎没有背景就做不了事情。所以,工作上所有的事情都是有一个出发点,然后N多人会质疑你这个出发点对不对,出发点对了,也继续质疑你做的方法对不对…
言归正传,这段代码的背景是这样的:有一个很长的文本,里面均是图片的url,想将每个图片的大小从http header上抓出来,写入到另外一个文件。简单来说就想得到3W多张图片各张图片的大小,然后再统计平均值。
使用单线程下载,由于http访问的时候使用的是TCP三次握手,异常慢,可以利用多线程进行下载,亲测速度快了接近5倍。
二、代码
#!/usr/bin/python
import os,sys,time,urllib2
import threading
def get(url):
#使用urllib2的库对url进行访问
r=urllib2.urlopen(url)
#读取url的页面
content=r.read()
#从header获得content-length
a=dict(r.headers).get('content-length', 0)
output = open('/home/abc/httprequest_new/output.txt', 'a+')
output.write(a+'\n')
#print a
#file(fname,'w').write(content)
def main():
urllist=open("/home/abc/httprequest.txt", "r")
for i in urllist:
url=i
#name=url.replace('/','_')
#print url,name
while threading.activeCount()>300:
time.sleep(0.1)
t=threading.Thread(target=get,args=([url,]))
t.start()
if __name__=='__main__':
main()
总结
使用Python的多线程不是很麻烦的事情,步骤:
- import threading
- t=threading.Thread(target=get,args=([url,]))
- t.start()
作为Python初入门者,可以考虑多用这类的方法。