python – 与pandas dataframe的关联规则

我有这样的数据帧

df = pd.DataFrame(data=[980,169,104,74], columns=['Count'], index=['X,Y,Z', 'X,Z','X','Y,Z'])

           Count
X, Y, Z      980
X,Z          169
X            104
Y,Z           74

我希望能够从中提取关联规则.我已经看到Apriori算法是参考.并且还发现用于数据挖掘的Orange库在该领域是众所周知的.

但问题是,为了使用AssociationRulesInducer,我需要首先创建一个包含所有事务的文件.由于我的数据集非常庞大(20列和500万行),将所有这些数据写入文件并使用Orange再次读取将会非常昂贵.

您是否知道我如何利用当前的数据帧结构来查找关联规则?

最佳答案
Orange data mining suite的新
Orange3-Associate附加组件似乎包括小部件和
code that mines frequent itemsets(以及它们
association rules),甚至包括稀疏数组或列表列表,这可能对您有用.

如果它有5M行,它会非常棒. 🙂

点赞