赵宏田,Python社区专栏作者 博客:https://zhuanlan.zhihu.com/pythoncoder 1、最邻近算法 KNN方法的简单描述:KNN方法用于分类,其基本思想如下。我们已经有一些已知类型的数据…
标签:数据挖掘
Kaggle 实战 - Ghouls, Goblins, and Ghosts
最新腾讯云技术公开课直播,提问腾讯W3C代表,如何从小白成为技术专家?点击了解活动详情。 作者 |郭小发编辑 | 顾乡 | 导语 本例使用R语言中的决策树以及随机森林package对kaggle的一个分类问题解题的全部过…
Spark 以及 spark streaming 核心原理及实践
作者 |蒋专编辑 | 顾乡 | 导语 spark 已经成为广告、报表以及推荐系统等大数据计算场景中首选系统,因效率高,易用以及通用性越来越得到大家的青睐,我自己最近半年在接触spark以及spark streaming之…
从 0 到 1 搭建数据运营体系
随着精细化理念的不断深入人心,“数据运营” 这一概念得到了大家越来越多的重视。但是什么是正确的数据指标,如何正确地采集数据,如何用数据驱动业务增长?这些常见的数据迷思,困扰着大多数的产品、运营、市场甚至管理层。 今天这篇…
Pilosa - 一个开源的 Go 语言大数据 Query 库
An open source, distributed bitmap index. Docs Getting Started Data Model Query Language Client Libraries Get …
【干货】Kaggle 数据挖掘比赛经验分享
简介 Kaggle 于 2010 年创立,专注数据科学,机器学习竞赛的举办,是全球最大的数据科学社区和数据竞赛平台。笔者从 2013 年开始,陆续参加了多场 K…
Scikit-learn 使用总结
在机器学习和数据挖掘的应用中,scikit-learn是一个功能强大的python包。在数据量不是过大的情况下,可以解决大部分问题。学习使用scikit-learn的过程中,我自己也在补充着机器学习和数据挖掘的知识。这里…
线性表的链式表示和实现
继上一篇博客讨论了线性表的顺序表示和实现今天我们就来讨论和实现一下线性表的链式存储。从上一片博客分析,我们知道线性表的顺序存储结构的特点是逻辑关系上相邻的两个元素在物理位置上也是相邻,因此可以随机存取表中任一元素。但是这…
Scikit-learn 秘籍 第三章 使用距离向量构建模型
数据挖掘 相关热门文章 3天破9亿!上万条评论解读《西虹市首富》是否值得一看 数据森麟 154 17 为了更好的运营,我剖析了某公众号的数据 雇个城管打天下 19 用户地理位置的聚类算法实现 麦子仲肥Kun 43 我花了…
NumPy 高级索引和数组概念
调整图像尺寸 # 这个代码用于调整图像尺寸 # 来源:NumPy Cookbook 2e Ch2.3 import scipy.misc import matplotlib.pyplot as plt import nu…
NumPy 基础入门
# 来源:NumPy Biginner's Guide 2e ch2 >>> from numpy import * 多维数组 # 创建多维数组 >>> m = array([aran…
NumPy 便利的函数
# 来源:NumPy Beginner's Guide 2e ch4 交易相关偶对 import numpy as np from matplotlib.pyplot import plot from matplotli…