点击上方“极客猴”,选择“置顶公众号” 第一时间获取Python技术干货! 题图: by jinovich from Instagram 阅读文本大概需要 10 分钟。 当我刚接触 Python 时,我已经被 Pytho…
标签:数据挖掘
小白的数据进阶之路(上)——从Shell脚本到MapReduce
那一年,小白刚从学校毕业,学的是计算机专业。最开始他也不清楚自己想要一份怎样的工作,只知道自己先找个互联网公司干干技术再说。 有一天,小白来到一家刚成立不久的小创业公司参见面试。公司虽小,但团队却是华丽丽的。两位创始人都…
数据杂谈
前言 记得几年前,曾经有人预测过未来最流行的三大技术:大数据、高并发、数据挖掘。到现在来看,这三种技术的确也随着这几年互联网的发展变得越发成熟和可靠。掌握这三种技术的人,不管是求职还是创业,都属于香饽饽。一个很深的印象就…
全栈数据工程师养成攻略
门槛低、内容全、实例多、收获大,你需要的就是这样的一个系列视频教程。 “全栈数据工程师养成攻略”是我最近筹划并且将长期进行的一个项目,主要从数据的采集、存储、分析和展示等方面,分享我的一些个人经验和实战项目,在总结自我的…
大型活动大规模人群的识别和疏散:从公交2.0到公交3.0
1 关于数据 本文中所使用到的数据包括,交通卡、交通事故、出租车轨迹、公交车运行、地铁运行、空气质量、气象监测、新浪微博等12个数据集近TB量级的数据。 2 关于我们 我们希望通过应用交通数据以解决大型活动(如演唱会、足…
推荐系统杂谈
推荐系统是近些年非常火的技术,不管是电商类软件还是新闻类app,都号称有精准的推荐系统能给你推送你最感兴趣的内容。现象级的资讯类app“今日头条”就得益于此成为了势头非常猛的一款产品。本文就针对推荐系统讲述一些相关概念和…
基于校园一卡通和WIFI使用记录的数据分析和可视化
数据概览 本次项目使用到的数据包括:一卡通消费数据、校园网wifi数据、上海市闵行区气象数据。具体来说包括: 商户信息:共134项观测,包含32个商户系统、85个子商户; 用户信息:共30861项观测,包含30861个一…
经典算法-海量数据处理算法(top K问题)
举例 有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词。 思路 首先把文件分开 针对每个文件hash遍历,统计每个词语的频率 使用堆进行遍历 把堆归并起来…
经典算法-最大流问题
举例描述 最大流问题是一个很经典的问题,很多人对此也很熟悉,它能够等同于一个线性规划问题。下面给出最大流问题的一个基本描述:如下图所示,s是源点,t为汇点,每条边上数字的含义是边能够允许流过的最大流量。可以将边看成管道,…
P2P 深度透视 OMNIRank 平台风险量化
这是之前参加某次比赛的成果,在此和大家分享,欢迎对数据感兴趣的朋友多指点。 问题背景 互联网金融2007年进入国内,2013年得到了蓬勃的发展。与此同时,也出现了很多问题平台诸如提现困难、老板跑路、停业等。截止2016年…
数据科学入门必看:来自斯坦福、MIT、微软、Twitter等名校名企的20门课程清单
数据科学家”被称为21世纪最性感的工作,想成为数据科学家?赶紧收藏这份清单吧 作者 | Pranavathiyani G 编译 | AI100(ID : rgznai100 ) “数据科学是一门跨学科的科学,它用统计学方…
自适应学习:机器学习在开心词场中应用
内容来源:2017年6月11日,沪江数据挖掘总监王新义在“饿了么&七牛云联合论坛 大数据最新场景化应用实践”进行《自适应学习:机器学习在开心词场中应用》演讲分享。IT 大咖说作为独家视频合作方,经主办方和讲者审阅…