门槛低、内容全、实例多、收获大,你需要的就是这样的一个系列视频教程。 “全栈数据工程师养成攻略”是我最近筹划并且将长期进行的一个项目,主要从数据的采集、存储、分析和展示等方面,分享我的一些个人经验和实战项目,在总结自我的…
分类:数据挖掘
大型活动大规模人群的识别和疏散:从公交2.0到公交3.0
1 关于数据 本文中所使用到的数据包括,交通卡、交通事故、出租车轨迹、公交车运行、地铁运行、空气质量、气象监测、新浪微博等12个数据集近TB量级的数据。 2 关于我们 我们希望通过应用交通数据以解决大型活动(如演唱会、足…
推荐系统杂谈
推荐系统是近些年非常火的技术,不管是电商类软件还是新闻类app,都号称有精准的推荐系统能给你推送你最感兴趣的内容。现象级的资讯类app“今日头条”就得益于此成为了势头非常猛的一款产品。本文就针对推荐系统讲述一些相关概念和…
基于校园一卡通和WIFI使用记录的数据分析和可视化
数据概览 本次项目使用到的数据包括:一卡通消费数据、校园网wifi数据、上海市闵行区气象数据。具体来说包括: 商户信息:共134项观测,包含32个商户系统、85个子商户; 用户信息:共30861项观测,包含30861个一…
经典算法-海量数据处理算法(top K问题)
举例 有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词。 思路 首先把文件分开 针对每个文件hash遍历,统计每个词语的频率 使用堆进行遍历 把堆归并起来…
经典算法-最大流问题
举例描述 最大流问题是一个很经典的问题,很多人对此也很熟悉,它能够等同于一个线性规划问题。下面给出最大流问题的一个基本描述:如下图所示,s是源点,t为汇点,每条边上数字的含义是边能够允许流过的最大流量。可以将边看成管道,…
P2P 深度透视 OMNIRank 平台风险量化
这是之前参加某次比赛的成果,在此和大家分享,欢迎对数据感兴趣的朋友多指点。 问题背景 互联网金融2007年进入国内,2013年得到了蓬勃的发展。与此同时,也出现了很多问题平台诸如提现困难、老板跑路、停业等。截止2016年…
数据科学入门必看:来自斯坦福、MIT、微软、Twitter等名校名企的20门课程清单
数据科学家”被称为21世纪最性感的工作,想成为数据科学家?赶紧收藏这份清单吧 作者 | Pranavathiyani G 编译 | AI100(ID : rgznai100 ) “数据科学是一门跨学科的科学,它用统计学方…
自适应学习:机器学习在开心词场中应用
内容来源:2017年6月11日,沪江数据挖掘总监王新义在“饿了么&七牛云联合论坛 大数据最新场景化应用实践”进行《自适应学习:机器学习在开心词场中应用》演讲分享。IT 大咖说作为独家视频合作方,经主办方和讲者审阅…
什么是数据可视化?
有人说,数据可视化不就是画图嘛,看不出来研究的价值在哪。我原来也天真的以为,数据可视化就是把数据从冰冷的数字转换成图形,顶多就是色彩丰富一些,看起来更酷炫,逼格满满。 其实不然,一个好的可视化,能够带给人们不仅仅是视觉上…
数据可视化基本原理——可视化模型
我刚接触数据可视化是在 4 年前,那时候一位大学老师 S ,叫我们使用 R 对数据进行统计分析(对,哥也学过一阵统计呢),其中有部分知识点是用 R 绘制箱线图、散点图之类的可视化结果。 从此对数据可视化产生了浓厚的兴趣,…
迁移学习在CTR问题中的运用
在年初的IJCAI 阿里妈妈广告搜索转化率预估赛上,我接触了CTR问题。CTR即(click-through-rate)点击通过率,指的是投放广告实际被点击次数与广告实际显示量的比例。是衡量广告投放出去效果的重要指标。 …