一 、pandas 基本操作 (一)、查看基本数据 1、查看dataframe的前n行或尾n行 固定的是n=5 df = pandas.Dataframe(columns=[],index=[],data=[]) ## …
标签:数据挖掘
正式学习python之前的准备工作
准备工作当然就是部署环境,首先,python目前还属于一个2.x到3.x的过渡阶段,所以现在是即有一部分资料是2.x的,又有一部分是3.x的,到底选哪个版本呢,我个人推荐3.x,如果是几年前,我可能还会犹豫是不是用2.x…
数据接口的开发
数据接口的开发算是模型工程化的基本技能之一,我们建模、做算法不能仅仅停留在实验环境,做一些一次性的工作,我们要会去输出自己的模型和结果,一般模型工程化两种办法,一种是开发算法包给其他人调用;一种是利用数据接口提供服务,这…
基于统计方法进行新词发现
很多行业都会有自己的专有名词,另外现在的网络用语,各种新鲜词层出不穷,对基于词库的分词工具提出了很大的挑战,这样的新词发现工作如果全部交给人工处理,明显会耗费巨大的人力,下面提出一个计算候选词的方法,即使不能准确定位到新…
稀疏矩阵点乘如何提升计算速度
我们在数值计算中遇到的稀疏矩阵,一般都是维数很多,有值的位置却很少的矩阵,一个很典型的例子就是文本的one-hot向量化之后的矩阵,极度稀疏,如果我们面临这样的问题,一组文本与另一组文本计算交叉余弦相似度,那么我们面临的…
基于规则的方法进行情感极性判断
基于规则进行情感判断的优势在于只要在规则可控的范围之内,情感的判断不易失误,超出规则导致情感判断错误的话,也比较方便解释; 基于机器学习的情感判断的优势在于对规则没有考虑到的说法也有很好的适应性,但是劣势在于有可能会在很…
学习数据挖掘 1 : 线段树
问题引入:售票系统问题 假设在一个火车线路上有五个车站,它们分别在A、B、C、D、E五座城市(因此区间数 )。售票部门出售所能的车票,即起始站和终点站是任意的。由于城市之间距离较长,售票部分希望每位乘客都有座位,设总座位…
学习数据挖掘 2 :数据流中高频模式挖掘
什么是数据流(data stream)? 源源不断地、连续地产生地数据,称为数据流。现在科技发展迅猛,生活中处处可见数据流——微信上实时信息、天气预报系统采集的数据、证券交易记录等等。数据流是连续的,没有界限的,需要进行…
学习数据挖掘3 :MinHash算法
问题引入 在文本去重等任务中,衡量两个集合的相似度是非常重要的。如何衡量集合之间的相似度呢?两个集合 的相似度(Jaccard Index)定义为 。假设两个集合都是一个超集 的子集。如果一个个遍历超集 中的元素,确实可…
量化投资平台打造——微软逆天神器 Power BI desktop
现在数据可视化的软件可以说门类很多,有专门的tableau、Qlik,还有统计上的SAS、R语言、python等,都可以用来做数据可视化。除此之外,还有网页版的网易大数据可视化平台、阿里可视化平台,但网页版个人比较推崇s…
用selenium爬取各大购物网站
双“11”一天的临近,它既是购物者的狂欢,也是卖家的狂欢。囤积已久的购物车在那天将被清空,鼓鼓的钱包将会被掏空。我不知道你们是否已经装满了购物车,反正我的购物车已经满满的啦!!!又是一年剁手季。 双十一满满的都是套路,小…
无锡及各分区天气相互关系探索
无锡的天气太反复无常了,一会是太阳高挂,一会是狂风大作、倾盆大雨。这不又被雨淋了,还感冒了,突然间有了想法。每个地级市都由不同城区组成,每个城区有着自己的天气预报,那么地级市的天气预报跟城区的天气预报有啥关系呢?是简单的…