title: 数据分析之回归、聚类、分类、关联分析、推荐算法
参考文档:
前言
作为数据分析工程师,志在找出数据中的规律,并将规律提供给运营或者产品作参考。数据挖掘、数据存储、数据处理层、数据分析到最后的数据推送,这个流程就像冶炼矿石。
有的数据是富矿,像石油一样从各个地方产生涌出。举个例子,阿里的各个平台的数据:APP、网站、支付宝等,大量用户日志数据会被记录并存储下来,这一步就是数据挖掘。这一步数据是海量的,需要巨大的存储空间和即时处理能力,如实时处理和离线处理。然后数据会运送到第二层,数据处理层,数据处理层也是一些大数据团队重点布局的方向,这里有我们常见熟悉的Hadoop、Hive、HBase、Storm,虽然知道名词,但是不知其架构,这里涉及数据的实时处理和离线处理,主要是将数据打上标签,送给下一个层级:推荐系统,数据可能用到回归、聚类、分类、关联分析、用户画像,最终推荐系统输送给业务系统,业务系统就会以各种方式展现在客户端:如APP推送、千人千面首页、用户杀熟、系统推荐、甚至是数据预警(淘宝刷单美滋滋)。
这里我们只谈数据分析的几个核心方法:回归、聚类、分类、关联分析、推荐算法
聚类算法与应用
K-means是提出非常早, 使用非常频繁的聚类算法。
基本步骤
输入:N个样本、拟定的聚类个数K
初始化:随机初始化K个D维的向量 或 选取K个不同的样本点作为初始聚类中心
迭代直至收敛:
1. 对于每个样本xn都指定其为离其最近的聚类中心的cluster
2. 重新计算聚类中心
未完待续