数据挖掘 - 算法网

Spark 系列：『 Spark 』6. 深入研究 spark 运行原理之 job, stage, task

写在前面本系列是综合了自己在学习spark过程中的理解记录＋对参考文章中的一些理解＋个人实践spark过程中的一些心得而来。写这样一个系列仅仅是为了梳理个人学习spark的笔记记录，所以一切以能够理解为主，没有…

写在前面本系列是综合了自己在学习spark过程中的理解记录＋对参考文章中的一些理解＋个人实践spark过程中的一些心得而来。写这样一个系列仅仅是为了梳理个人学习spark的笔记记录，所以一切以能够理解为主，没有…

2016-03-10 最后更新时间: 写在前面本系列是综合了自己在学习spark过程中的理解记录＋对参考文章中的一些理解＋个人实践spark过程中的一些心得而来。写这样一个系列仅仅是为了梳理个人学习spark的…

在安装并配置好Hadoop环境之后，需要运行一个实例来验证配置是否正确，Hadoop就提供了一个简单的wordcount程序，其实就是统计单词个数的程序，这个程序可以算是Hadoop中的“Hello World”了。 M…

后端数据挖掘相关热门文章 [肥朝]原理暂且不谈，定时器你当真会用？肥朝 51 14 漫话：如何给女朋友解释什么是乐观锁与悲观锁漫话编程 132 21 [译] Spring 的分布式事务实现 — 使用和不使用 XA…

写在前面这是我在 2016.06.02 的讲座课件。 1. 讲稿查看图片查看图片查看图片查看图片查看图片查看图片查看图片查看图片查看图片查看图片查看图片查看图片查看图片查看图片查看图片查…

TuShare是一个免费、开源的python财经数据接口包。主要实现对股票等金融数据从数据采集、清洗加工到数据存储的过程，能够为金融分析人员提供快速、整洁、…

前段时间读机器之心的推送文章:Keras 框架发明者François Chollet Quora 问答集，很喜欢François Chollet推荐的学习方法于是将François Chollet推荐的这篇文章做了翻译…

一共 15 篇随笔，主要是为了记录数据分析过程中的一些小 demo，分享给其他需要的网友，更为了方便以后自己查看，15 篇随笔，每篇内容基本都是以一句说明加一段代码的方式，保持简单小巧，看起来也清晰，一共可以划分为三…

原文地址：Collaborative Map-Reduce in the Browser 译文出自：掘金翻译计划译者：mypchas6fans 校对者：siegeout，MAYDAY1993 在分布式计算和海量数据中摸…

python, selenium, PhantomJS, sklearn, BeautifulSoup, caffe caffe的安装等配置请自行查阅，可以先只编译一个only cpu的 git代码地址：github.c…

本文是我同事谢思发同学的文章。Kmeans 聚类算法是数据挖掘十大算法之一。这里总结一些使用 Kmeans 的心得，主要是特征的处理方面。枚举型特征根据Kmea…