数据挖掘中几个指标的含义及示例

2019年9月23日 211次阅读来源: Cesar

指标含义

支持度(SUPPORT)

支持度表示项集{X,Y}在总项集里出现的概率。

计算公式为：《数据挖掘中几个指标的含义及示例》

其中I表示总事务集。num()表示求事务集里特定项集出现的次数。

置信度(CONFIDENCE)

置信度表示在先决条件X发生的情况下，由关联规则”X→Y“推出Y的概率。即在含有X的项集中，含有Y的可能性。

计算公式为：《数据挖掘中几个指标的含义及示例》

提升度(LIFT):

提升度表示含有X的条件下，同时含有Y的概率，与不含X的条件下却含Y的概率之比。

其公式为《数据挖掘中几个指标的含义及示例》

例题

eg:已知有1000名顾客买年货，分为甲乙两组，每组各500人，其中甲组有500人买了茶叶，同时又有450人买了咖啡；乙组有450人买了咖啡，如表所示：

	买茶叶人数	买咖啡人数
甲组（500人）	500	450
乙组（500人）	0	450

试求解

“茶叶→咖啡”的支持度
“茶叶→咖啡”的置信度
“茶叶→咖啡”的提升度

《数据挖掘中几个指标的含义及示例》

注

由于提升度Lift=1，表示X与Y相互独立，即是否有X，对于Y的出现无影响。也就是说，是否购买咖啡，与有没有购买茶叶无关联。即规则”茶叶→咖啡“不成立，或者说关联性很小，几乎没有，虽然它的置信度都高达90%，但它不是一条有效的关联规则。
满足最小支持度和最小置信度的规则，叫做“强关联规则”。然而，强关联规则里，也分有效的强关联规则和无效的强关联规则。

如果Lift>=1，则规则是有效的强关联规则。
如果Lift<=1，则规则是无效的强关联规则。
特别地，如果Lift=1，则表示X与Y相互独立。

    原文作者：Cesar
    原文地址: https://segmentfault.com/a/1190000004371171
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。