购物篮分析分类算法——频繁模式挖掘(聚类算法)

        频繁模式是频繁地出现在数据集中的模式,包括频繁项集(如牛奶和面包)、频繁子序列(首先购买PC,然后是数码相机,再后是内存卡)或频繁子结构(涉及不同的结构形式,如子图、子树或子格,它可能与项集或子序列结合在一起)。从大量的商务事物记录中发现有趣相关联系,可为分类设计、交叉销售和购物购买习惯分析等许多商务决策过程提供帮助。

频繁项集挖掘,如购物篮分析等,这些模式可用关联规则的形式表示。

 

《购物篮分析分类算法——频繁模式挖掘(聚类算法)》

       关联规则的支持度为2%,意味所分析的所有事务的2%显示计算机和杀毒软件被同时购买。置信度60%意味购买计算机的顾客60%也购买了杀毒软件。

《购物篮分析分类算法——频繁模式挖掘(聚类算法)》

      项的集合称为项集。包含k个项的项集称为k项集。项集的出现频度是包含项集的事务数,称为项集的频度、支持度计数或计数。

《购物篮分析分类算法——频繁模式挖掘(聚类算法)》

《购物篮分析分类算法——频繁模式挖掘(聚类算法)》

(1)挖掘关联规则的问题可归结为挖掘频繁项集:

第一步找出所有的频繁项集,这些项集的每一个频繁出现的次数至少与预定义的最小支持计数min_sup一样;

第二步由频繁项集产生强关联规则,这些规则必须满足最小支持度和最小置信度;

第三步组织规则,形成基于规则的分类器。

 (2) Apriori算法

       从大型数据集中挖掘频繁项集的主要挑战是,这种挖掘常常产生大量满足最小支持度阈值的项集,当min_sup设置得很低时尤其如此。

       Apriori算法:通过限制候选产生发现频繁项集。是一种发现频繁项集的基本算法。Apriori意思是先验的。该算法使用频繁项集性质的先验知识。该算法使用一种称为逐层搜索的迭代方法,其中k项集用于探索(k+1)项集。首先,通过扫描数据库,累计每个项的计算,并收集满足最小支持度的项,找出频繁1项集的集合。《购物篮分析分类算法——频繁模式挖掘(聚类算法)》找出频繁2项集《购物篮分析分类算法——频繁模式挖掘(聚类算法)》据库的完整扫描。

       为了提高频繁项集逐层产生效率,先验性质(Apriori property)的重要性质可用于压缩搜索空间。先验性质:频繁项集的所有非空子集也一定是频繁的。

 

      如何在算法中使用先验性质?

     Step1 两两组合连接步:项集L1和自身连接,即L1项集中的项两两组合产生C2;项集L2项集中的项两两组合产生C3,依次类推.

     Step2 使用先验性质剪枝步: 任何非频繁的(k-1)项集都不是频繁k项集的子集。因此,如果一个候选k项集的(k-1)项子集不在《购物篮分析分类算法——频繁模式挖掘(聚类算法)》中,则该候选也不可能是频繁的,从而可以从《购物篮分析分类算法——频繁模式挖掘(聚类算法)》中删除。

《购物篮分析分类算法——频繁模式挖掘(聚类算法)》(此图取自数据挖掘韩家炜老师)

(3)模式评估方法

关联规则挖掘有时会产生一些用户不感兴趣的规则。当使用低支持度阈值挖掘或挖掘长模式时,情况特别严重(关联规则挖掘成功应用的主要瓶颈之一),容易产生误导,比如计算机游戏和录像实际上应该是负相关,不应该关联在一起。

 

从关联分析到相关分析

《购物篮分析分类算法——频繁模式挖掘(聚类算法)》

提升度(lift)一种简单的相关性度量。项集A的出现独立于项集B的出现,如果《购物篮分析分类算法——频繁模式挖掘(聚类算法)》;否则,作为事件,项集A和B是依赖的和相关的。

《购物篮分析分类算法——频繁模式挖掘(聚类算法)》

提升度的值小于1,则A的出现与B的出现是呈负相关的,意味一个出现可能导致另一个不出现。如果结果值大于1,则A和B是正相关的,意味每一个的出现都蕴涵另一个的出现。如果结果值等于1,则A和B是独立的,它们之间没有相关性。

提升度计算公式等价于《购物篮分析分类算法——频繁模式挖掘(聚类算法)》也称关联(或相关)规则《购物篮分析分类算法——频繁模式挖掘(聚类算法)》的提升度。它评估一个的出现“提升”另一个出现的程度。

 

使用卡方进行相关分析

《购物篮分析分类算法——频繁模式挖掘(聚类算法)》

 

 

 

 

 

 

 

 

    原文作者:聚类算法
    原文地址: https://blog.csdn.net/american199062/article/details/51471816
    本文转自网络文章,转载此文章仅为分享知识,如有侵权,请联系博主进行删除。
点赞