购物篮分析分类算法——频繁模式挖掘（聚类算法）

2019年3月21日 401次阅读来源: 聚类算法

频繁模式是频繁地出现在数据集中的模式，包括频繁项集（如牛奶和面包）、频繁子序列（首先购买PC，然后是数码相机，再后是内存卡）或频繁子结构（涉及不同的结构形式，如子图、子树或子格，它可能与项集或子序列结合在一起）。从大量的商务事物记录中发现有趣相关联系，可为分类设计、交叉销售和购物购买习惯分析等许多商务决策过程提供帮助。

频繁项集挖掘，如购物篮分析等，这些模式可用关联规则的形式表示。

《购物篮分析分类算法——频繁模式挖掘（聚类算法）》

关联规则的支持度为2%，意味所分析的所有事务的2%显示计算机和杀毒软件被同时购买。置信度60%意味购买计算机的顾客60%也购买了杀毒软件。

《购物篮分析分类算法——频繁模式挖掘（聚类算法）》

项的集合称为项集。包含k个项的项集称为k项集。项集的出现频度是包含项集的事务数，称为项集的频度、支持度计数或计数。

《购物篮分析分类算法——频繁模式挖掘（聚类算法）》

（1）挖掘关联规则的问题可归结为挖掘频繁项集：

第一步找出所有的频繁项集，这些项集的每一个频繁出现的次数至少与预定义的最小支持计数min_sup一样；

第二步由频繁项集产生强关联规则，这些规则必须满足最小支持度和最小置信度；

第三步组织规则，形成基于规则的分类器。

（2） Apriori算法

从大型数据集中挖掘频繁项集的主要挑战是，这种挖掘常常产生大量满足最小支持度阈值的项集，当min_sup设置得很低时尤其如此。

Apriori算法：通过限制候选产生发现频繁项集。是一种发现频繁项集的基本算法。Apriori意思是先验的。该算法使用频繁项集性质的先验知识。该算法使用一种称为逐层搜索的迭代方法，其中k项集用于探索（k+1）项集。首先，通过扫描数据库，累计每个项的计算，并收集满足最小支持度的项，找出频繁1项集的集合。《购物篮分析分类算法——频繁模式挖掘（聚类算法）》找出频繁2项集据库的完整扫描。

为了提高频繁项集逐层产生效率，先验性质（Apriori property）的重要性质可用于压缩搜索空间。先验性质：频繁项集的所有非空子集也一定是频繁的。

如何在算法中使用先验性质？

Step1 两两组合连接步：项集L1和自身连接，即L1项集中的项两两组合产生C2；项集L2项集中的项两两组合产生C3，依次类推.

Step2 使用先验性质剪枝步：任何非频繁的（k-1）项集都不是频繁k项集的子集。因此，如果一个候选k项集的(k-1)项子集不在中，则该候选也不可能是频繁的，从而可以从中删除。

《购物篮分析分类算法——频繁模式挖掘（聚类算法）》（此图取自数据挖掘韩家炜老师）

（3）模式评估方法

关联规则挖掘有时会产生一些用户不感兴趣的规则。当使用低支持度阈值挖掘或挖掘长模式时，情况特别严重（关联规则挖掘成功应用的主要瓶颈之一），容易产生误导，比如计算机游戏和录像实际上应该是负相关，不应该关联在一起。

从关联分析到相关分析

《购物篮分析分类算法——频繁模式挖掘（聚类算法）》

提升度（lift）一种简单的相关性度量。项集A的出现独立于项集B的出现，如果《购物篮分析分类算法——频繁模式挖掘（聚类算法）》；否则，作为事件，项集A和B是依赖的和相关的。

《购物篮分析分类算法——频繁模式挖掘（聚类算法）》

提升度的值小于1，则A的出现与B的出现是呈负相关的，意味一个出现可能导致另一个不出现。如果结果值大于1，则A和B是正相关的，意味每一个的出现都蕴涵另一个的出现。如果结果值等于1，则A和B是独立的，它们之间没有相关性。

提升度计算公式等价于《购物篮分析分类算法——频繁模式挖掘（聚类算法）》也称关联（或相关）规则的提升度。它评估一个的出现“提升”另一个出现的程度。

使用卡方进行相关分析

《购物篮分析分类算法——频繁模式挖掘（聚类算法）》

    原文作者：聚类算法
    原文地址: https://blog.csdn.net/american199062/article/details/51471816
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。