我有这样的数据帧
df = pd.DataFrame(data=[980,169,104,74], columns=['Count'], index=['X,Y,Z', 'X,Z','X','Y,Z'])
Count
X, Y, Z 980
X,Z 169
X 104
Y,Z 74
我希望能够从中提取关联规则.我已经看到Apriori算法是参考.并且还发现用于数据挖掘的Orange库在该领域是众所周知的.
但问题是,为了使用AssociationRulesInducer,我需要首先创建一个包含所有事务的文件.由于我的数据集非常庞大(20列和500万行),将所有这些数据写入文件并使用Orange再次读取将会非常昂贵.
您是否知道我如何利用当前的数据帧结构来查找关联规则?
最佳答案
Orange data mining suite的新
Orange3-Associate附加组件似乎包括小部件和
code that mines frequent itemsets(以及它们
association rules),甚至包括稀疏数组或列表列表,这可能对您有用.
如果它有5M行,它会非常棒. 🙂