H2O Ensemble: Stacking in H2O 若你不能成功安装这个版本不要纠结,你可以看第二篇译文,但我建议你先浏览一遍这篇文章H2O Ensemble已经实现成为一个成为h2oEnsemble的独立R包。…
标签:r
【译】使用H2O进行集成学习【2】
使用H2O进行集成学习 介绍 集成学习就是组合多个机器学习算法,从而得到更好的预测性能。许多流行的现代机器学习算法实际上就是集成。比如说随机森林 和 Gradient Boosting Machine…
机器学习:随机森林学习笔记
前言 随机森林是一个很强大的模型,由一组决策树投票得到最后的结果。要研究清楚随机森林,首先需要研究清楚决策树,然后理解随机森林如何通过多棵树的集成提高模型效果。 本文的目的是将自己学习这个模型时有用的资料汇总在一起。 决…
[原]数据科学教程:R语言与NoSQL
介绍 现代化数据科学中的 DataFrame 概念源起R语言,而 Python Pandas 和 Spark DateFrame 都是参考R设计的。不过在实际的网络数据通讯中,类似DateFrame这样的格式却并不是主流…
[译]作为编程言语,在数据科学范畴Python正在庖代R言语
在PhD中,R言语依旧很火,然则在时期的大潮水中,Python是王者。 Matt Asay (From MongoDB)2013年11月25号 关于数据科学家来讲,R言语无疑是他们的挑选,然则Python正在争夺R言语的…
[译] 解密 Uber 数据部门的数据可视化最好实践
概述 在2015年终,我们在Uber规划了一个官方的数据科学团队。这个主张的缘起是:经由历程可视化数据探究东西从Uber的数据中发明洞见。天天,Uber 治理上亿级别的GPS位置信息。每分钟,我们的平台处置惩罚上百万的挪…
[原] Python 开发者面向文档编程的正确姿势
概述 秦人不暇自哀,而后人哀之;后人哀之而不鉴之,亦使后人而复哀后人也! –论面向文档编程的重要性 如果想看见识一个人写代码的功力,注释其实是区分老司机和小鲜肉的一个显著的分界线(有没有观察到你们公司的领导基…
机器学习:随机森林学习笔记
前言 随机森林是一个很强大的模型,由一组决策树投票得到最后的结果。要研究清楚随机森林,首先需要研究清楚决策树,然后理解随机森林如何通过多棵树的集成提高模型效果。 本文的目的是将自己学习这个模型时有用的资料汇总在一起。 决…
[译] 解密 Uber 数据部门的数据可视化最佳实践
概述 在2015年初,我们在Uber规划了一个官方的数据科学团队。这个主意的缘起是:通过可视化数据探索工具从Uber的数据中发现洞见。每天,Uber 管理上亿级别的GPS位置信息。每分钟,我们的平台处理上百万的移动事件。…
[译] 解密 Airbnb 的数据科学部门如何构建知识仓库
顽疾 Airbnb的数据团队很重要的一个职责就是传播基于数据的决策方法。我们将数据的获取民主化,使得每一个Airbnb的成员都可以量化他们基于数据的决策影响力并且借此洞察用户偏好,提升数据产品的用户体验。最近,我们开始解…
[原]深入对比数据科学工具箱:Python和R之争[2016版]
概述 在真实的数据科学世界里,我们会有两个极端,一个是业务,一个是工程。偏向业务的数据科学被称为数据分析(Data Analysis),也就是A型数据科学。偏向工程的数据科学被称为数据构建(Data Building),…
使用逻辑回归进行分类任务的R和scikit-learn的比较
我正在做一个Logistic回归,描述在James,Witten,Hastie,Tibshirani(2013)的“R中应用统计学习的介绍”一书中. 更具体地说,我将二进制分类模型拟合到§7.8.1中描述的R包’ISLR…