web 使用python版的wrod2vec工具gensim来训练词向量。词向量维数设置为100,训练出来的词向量词典大小为38053.gensim训练词向量的代码特别简单: model = gensim.models.…
分类:python
python中取整数的几种方法
1、向下取整: int() >>> a = 14.38 >>> int(a) 14 2、向上取整:ceil() 使用ceil()方法时需要导入math模块,例如 >&g…
Python CSV 超简明用法
平常经常会用CSV存储数据,不可避免的会跟CSV文件的读写操作扯上关系。 Python有CSV这个Package来解决这个问题,官网也有比较详细的教程 https://docs.python.org/3/lib…
Python 2x -> 3.x
Nowadays, Python 3 is becoming more and more popular than Python 2, but there are still a lot of codes …
ubuntu14.04下安装python3.4.2
1. python安装包的下载地址:https://www.python.org/downloads/ 我的python安装包下载地址:https://www.python.org/ftp/python/3.4.2/Py…
python之协程的那些事
python如何设置多进程(直通车) 协程 基本概念 协程,又称微线程,纤程。英文名Coroutine。协程是一种用户态的轻量级线程。 协程原理 协程拥有自己的寄存器上下文和栈。协程调度切换时,将寄存器上下文和栈保存到其…
python爬虫知识点(cookie,cookielib ,)
Cookie Cookie 是指某些网站服务器为了辨别用户身份和进行Session跟踪,而储存在用户浏览器上的文本文件,Cookie可以保持登录信息到用户下次与服务器的会话。 Cookie原理 HTTP是无状态的面向连接…
Python_大众点评网站数据爬虫
目标: 爬取大众点评某地区的酒店信息,包括酒店名,平均价格,评价人数,标签等,并将其写入txt,导入数据库。 所用模块:urllib,urllib2,re,BeautifulSoup 大致步骤: (1)获取页面所在首页u…
三种Python下载url并保存文件的代码
Python中下载url最流行的方法就是通过Http利用urllib或者urllib2模块。当然你也可以利用ftplib从ftp站点下载文件。此外Python还提供…
Linux下安装或升级Python 2.7(含pip安装)
1.准备编译环境gcc,没有gcc编译环境会出现报错,如下: [root@localhost ~]# cd Python-2.7.11[root@localhost Python-2.7.11]# ./configure…
python3爬虫简单记录-使用CSS选择器
学习过了python写爬虫,怕以后完全不记得了,故简单把写的东西贴一下。 如果以后继续深入,再将这些代码功能补充完全。 CSS选择器,需要安装cssselect模块,用pip命令就可以,还需要安装lxml模块 还可以使用…
raw_input() 与 input() __ Python
这两个均是 python 的内建函数,通过读取控制台的输入与用户实现交互。但他们的功能不尽相同。举两个小例子。 1 >>> raw_input_A = raw_input( " raw_input: "…