欢迎访问 生活随笔!

生活随笔

当前位置: 首页 > 编程资源 > 编程问答 >内容正文

编程问答

【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则性质 | 非频繁项集超集性质 | 频繁项集子集性质 | 项集与超集支持度性质 )

发布时间:2025/6/17 编程问答 46 豆豆

文章目录

  • 一、 非频繁项集超集性质
  • 二、 频繁项集子集性质
  • 三、 项集与超集支持度性质



参考博客 :

  • 【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction 概念 | 项 Item 概念 | 项集 Item Set | 频繁项集 | 示例解析 )
  • 【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则 | 数据项支持度 | 关联规则支持度 )
  • 【数据挖掘】关联规则挖掘 Apriori 算法 ( 置信度 | 置信度示例 )
  • 【数据挖掘】关联规则挖掘 Apriori 算法 ( 频繁项集 | 非频繁项集 | 强关联规则 | 弱关联规则 | 发现关联规则 )




一、 非频繁项集超集性质



关联规则 性质 1 : 非频繁项集超集 一定是 非频繁的 ;


超集 就是 包含 该集合的集合 ;


项集 X\rm XX 是 非频繁项集 ,

项集 Y\rm YY 是 项集 X\rm XX 的超集 ,

( 使用集合表示 : X⊆Y,X≠∅\rm X \subseteq Y , X \not= \varnothingXY,X= , 项集 Y\rm YY 包含 项集 X\rm XX , 并且 项集 X\rm XX 不为空集 )

则 项集 Y\rm YY 一定是 非频繁的 ;


举例 :

数据集 D\rm DD 为 :

事物编号事物 ( 商品 )
001001001奶粉 , 莴苣
002002002莴苣 , 尿布 , 啤酒 , 甜菜
003003003奶粉 , 尿布 , 啤酒 , 橙汁
004004004奶粉 , 莴苣 , 尿布 , 啤酒
005005005奶粉 , 莴苣 , 尿布 , 橙汁

111 项集 {甜菜}\{ 甜菜 \}{}

222 项集 {甜菜,啤酒}\{ 甜菜 , 啤酒 \}{,}

上述 {甜菜,啤酒}\{ 甜菜 , 啤酒 \}{,} 就是 {甜菜}\{ 甜菜 \}{}超集 ,

111 项集 {甜菜}\{ 甜菜 \}{} 其支持度是 0.2\rm 0.20.2 , 小于最小支持度 minsup=0.6\rm minsup = 0.6minsup=0.6, 是 非频繁项集

那么 {甜菜,啤酒}\{ 甜菜 , 啤酒 \}{,} 也是 非频繁项集 ;



在具体算法中会使用该性质 , 用于进行 “剪枝” 操作 ;

计算支持度时 , 按照 111 项集 支持度 , 222 项集 支持度 , ⋯\cdots 顺序进行计算 ,

如果发现 111 项集 中有 非频繁项集 , 则包含该 111 项集的 n\rm nn 项集 肯定是 非频繁项集 ;

然后使用 频繁 111 项集 组合成 222 项集 , 然后再计算这些 222 项集是否是频繁项集 ;

“剪枝” 操作 减少了不必要的计算量 ;





二、 频繁项集子集性质



频繁项集所有非空子集 , 一定是 频繁项集 ;


项集 Y\rm YY 是 频繁项集 ,

项集 Y\rm YY 是 项集 X\rm XX 的超集 ,

( 使用集合表示 : X⊆Y,X≠∅\rm X \subseteq Y , X \not= \varnothingXY,X= , 项集 Y\rm YY 包含 项集 X\rm XX , 并且 项集 X\rm XX 不为空集 )

则 项集 X\rm XX 一定是 频繁的 ;


举例 :

数据集 D\rm DD 为 :

事物编号事物 ( 商品 )
001001001奶粉 , 莴苣
002002002莴苣 , 尿布 , 啤酒 , 甜菜
003003003奶粉 , 尿布 , 啤酒 , 橙汁
004004004奶粉 , 莴苣 , 尿布 , 啤酒
005005005奶粉 , 莴苣 , 尿布 , 橙汁

111 项集 {尿布}\{ 尿布 \}{尿} , {啤酒}\{ 啤酒 \}{}

222 项集 {尿布,啤酒}\{ 尿布 , 啤酒 \}{尿,}


222 项集 {尿布,啤酒}\{ 尿布 , 啤酒 \}{尿,} 其支持度是 0.6\rm 0.60.6 , 等于最小支持度 minsup=0.6\rm minsup = 0.6minsup=0.6, 是 频繁项集

那么 222 项集 {尿布,啤酒}\{ 尿布 , 啤酒 \}{尿,} 的子集是 111 项集 {尿布}\{ 尿布 \}{尿} , {啤酒}\{ 啤酒 \}{} ,

根据上述性质 , 111 项集 {尿布}\{ 尿布 \}{尿} , {啤酒}\{ 啤酒 \}{} 都是 频繁项集 ;





三、 项集与超集支持度性质



任意一个 项集 的 支持度 , 都 大于等于超集 支持度 ;


超集 就是 包含 该集合的集合 ;


总结

以上是生活随笔为你收集整理的【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则性质 | 非频繁项集超集性质 | 频繁项集子集性质 | 项集与超集支持度性质 )的全部内容,希望文章能够帮你解决所遇到的问题。

如果觉得生活随笔网站内容还不错,欢迎将生活随笔推荐给好友。