写在前面 本系列是综合了自己在学习spark过程中的理解记录 + 对参考文章中的一些理解 + 个人实践spark过程中的一些心得而来。写这样一个系列仅仅是为了梳理个人学习spark的笔记记录,所以一切以能够理解为主,没有…
标签:数据挖掘
Spark 系列:『 Spark 』4. spark 之 RDD
写在前面 本系列是综合了自己在学习spark过程中的理解记录 + 对参考文章中的一些理解 + 个人实践spark过程中的一些心得而来。写这样一个系列仅仅是为了梳理个人学习spark的笔记记录,所以一切以能够理解为主,没有…
Spark 系列:『 Spark 』5. 这些年,你不能错过的 spark 学习资源
2016-03-10 最后更新时间: 写在前面 本系列是综合了自己在学习spark过程中的理解记录 + 对参考文章中的一些理解 + 个人实践spark过程中的一些心得而来。写这样一个系列仅仅是为了梳理个人学习spark的…
Hadoop 的 “Hello world”---WordCount
在安装并配置好Hadoop环境之后,需要运行一个实例来验证配置是否正确,Hadoop就提供了一个简单的wordcount程序,其实就是统计单词个数的程序,这个程序可以算是Hadoop中的“Hello World”了。 M…
Hadoop 中 MapReduce1 和 Yarn 的工作机制
后端 数据挖掘 相关热门文章 [肥朝]原理暂且不谈,定时器你当真会用? 肥朝 51 14 漫话:如何给女朋友解释什么是乐观锁与悲观锁 漫话编程 132 21 [译] Spring 的分布式事务实现 — 使用和不使用 XA…
只会用 python 来写程序,太 low 了吧
写在前面 这是我在 2016.06.02 的讲座课件。 1. 讲稿 查看图片 查看图片 查看图片 查看图片 查看图片 查看图片 查看图片 查看图片 查看图片 查看图片 查看图片 查看图片 查看图片 查看图片 查看图片 查…
TuShare - 财经数据接口包(Python)
TuShare是一个免费、开源的python财经数据接口包。主要实现对股票等金融数据从数据采集、清洗加工 到 数据存储的过程,能够为金融分析人员提供快速、整洁、…
[译]神经网络的 "Hello world" --keras 入门
前段时间读机器之心的推送文章:Keras 框架发明者François Chollet Quora 问答集,很喜欢François Chollet推荐的学习方法 于是将François Chollet推荐的这篇文章做了翻译…
利用 Python 进行数据分析 基础系列随笔汇总
一共 15 篇随笔,主要是为了记录数据分析过程中的一些小 demo,分享给其他需要的网友,更为了方便以后自己查看,15 篇随笔,每篇内容基本都是以一句说明加一段代码的方式, 保持简单小巧,看起来也清晰 ,一共可以划分为三…
基于浏览器的 MapReduce
原文地址:Collaborative Map-Reduce in the Browser 译文出自:掘金翻译计划 译者:mypchas6fans 校对者:siegeout,MAYDAY1993 在分布式计算和海量数据中摸…
爬取百度图片各种狗狗的图片,使用 caffe 训练模型分类
python, selenium, PhantomJS, sklearn, BeautifulSoup, caffe caffe的安装等配置请自行查阅,可以先只编译一个only cpu的 git代码地址:github.c…
Kmeas 特征处理的经验
本文是我同事谢思发同学的文章。Kmeans 聚类算法是数据挖掘十大算法之一。这里总结一些使用 Kmeans 的心得,主要是特征的处理方面。 枚举型特征 根据Kmea…