数据分析之回归、聚类、分类、关联分析、推荐算法

2023年5月7日 291次阅读来源: 采香行处蹙连钱

title: 数据分析之回归、聚类、分类、关联分析、推荐算法

参考文档：

前言

作为数据分析工程师，志在找出数据中的规律，并将规律提供给运营或者产品作参考。数据挖掘、数据存储、数据处理层、数据分析到最后的数据推送，这个流程就像冶炼矿石。

有的数据是富矿，像石油一样从各个地方产生涌出。举个例子，阿里的各个平台的数据：APP、网站、支付宝等，大量用户日志数据会被记录并存储下来，这一步就是数据挖掘。这一步数据是海量的，需要巨大的存储空间和即时处理能力，如实时处理和离线处理。然后数据会运送到第二层，数据处理层，数据处理层也是一些大数据团队重点布局的方向，这里有我们常见熟悉的Hadoop、Hive、HBase、Storm，虽然知道名词，但是不知其架构，这里涉及数据的实时处理和离线处理，主要是将数据打上标签，送给下一个层级：推荐系统，数据可能用到回归、聚类、分类、关联分析、用户画像，最终推荐系统输送给业务系统，业务系统就会以各种方式展现在客户端：如APP推送、千人千面首页、用户杀熟、系统推荐、甚至是数据预警（淘宝刷单美滋滋）。

这里我们只谈数据分析的几个核心方法：回归、聚类、分类、关联分析、推荐算法

聚类算法与应用

K-means是提出非常早，使用非常频繁的聚类算法。
基本步骤

输入：N个样本、拟定的聚类个数K
初始化：随机初始化K个D维的向量 或 选取K个不同的样本点作为初始聚类中心
迭代直至收敛：
1. 对于每个样本xn都指定其为离其最近的聚类中心的cluster
2. 重新计算聚类中心

未完待续

    原文作者：采香行处蹙连钱
    原文地址: https://www.jianshu.com/p/bcd60af757f5
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。