【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则性质 | 非频繁项集超集性质 | 频繁项集子集性质 | 项集与超集支持度性质 )
文章目录
- 一、 非频繁项集超集性质
- 二、 频繁项集子集性质
- 三、 项集与超集支持度性质
参考博客 :
- 【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction 概念 | 项 Item 概念 | 项集 Item Set | 频繁项集 | 示例解析 )
- 【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则 | 数据项支持度 | 关联规则支持度 )
- 【数据挖掘】关联规则挖掘 Apriori 算法 ( 置信度 | 置信度示例 )
- 【数据挖掘】关联规则挖掘 Apriori 算法 ( 频繁项集 | 非频繁项集 | 强关联规则 | 弱关联规则 | 发现关联规则 )
一、 非频繁项集超集性质
关联规则 性质 1 : 非频繁项集 的 超集 一定是 非频繁的 ;
超集 就是 包含 该集合的集合 ;
项集 X\rm XX 是 非频繁项集 ,
项集 Y\rm YY 是 项集 X\rm XX 的超集 ,
( 使用集合表示 : X⊆Y,X≠∅\rm X \subseteq Y , X \not= \varnothingX⊆Y,X=∅ , 项集 Y\rm YY 包含 项集 X\rm XX , 并且 项集 X\rm XX 不为空集 )
则 项集 Y\rm YY 一定是 非频繁的 ;
举例 :
数据集 D\rm DD 为 :
| 001001001 | 奶粉 , 莴苣 |
| 002002002 | 莴苣 , 尿布 , 啤酒 , 甜菜 |
| 003003003 | 奶粉 , 尿布 , 啤酒 , 橙汁 |
| 004004004 | 奶粉 , 莴苣 , 尿布 , 啤酒 |
| 005005005 | 奶粉 , 莴苣 , 尿布 , 橙汁 |
111 项集 {甜菜}\{ 甜菜 \}{甜菜}
222 项集 {甜菜,啤酒}\{ 甜菜 , 啤酒 \}{甜菜,啤酒}
上述 {甜菜,啤酒}\{ 甜菜 , 啤酒 \}{甜菜,啤酒} 就是 {甜菜}\{ 甜菜 \}{甜菜} 的 超集 ,
111 项集 {甜菜}\{ 甜菜 \}{甜菜} 其支持度是 0.2\rm 0.20.2 , 小于最小支持度 minsup=0.6\rm minsup = 0.6minsup=0.6, 是 非频繁项集
那么 {甜菜,啤酒}\{ 甜菜 , 啤酒 \}{甜菜,啤酒} 也是 非频繁项集 ;
在具体算法中会使用该性质 , 用于进行 “剪枝” 操作 ;
计算支持度时 , 按照 111 项集 支持度 , 222 项集 支持度 , ⋯\cdots⋯ 顺序进行计算 ,
如果发现 111 项集 中有 非频繁项集 , 则包含该 111 项集的 n\rm nn 项集 肯定是 非频繁项集 ;
然后使用 频繁 111 项集 组合成 222 项集 , 然后再计算这些 222 项集是否是频繁项集 ;
“剪枝” 操作 减少了不必要的计算量 ;
二、 频繁项集子集性质
频繁项集 的 所有非空子集 , 一定是 频繁项集 ;
项集 Y\rm YY 是 频繁项集 ,
项集 Y\rm YY 是 项集 X\rm XX 的超集 ,
( 使用集合表示 : X⊆Y,X≠∅\rm X \subseteq Y , X \not= \varnothingX⊆Y,X=∅ , 项集 Y\rm YY 包含 项集 X\rm XX , 并且 项集 X\rm XX 不为空集 )
则 项集 X\rm XX 一定是 频繁的 ;
举例 :
数据集 D\rm DD 为 :
| 001001001 | 奶粉 , 莴苣 |
| 002002002 | 莴苣 , 尿布 , 啤酒 , 甜菜 |
| 003003003 | 奶粉 , 尿布 , 啤酒 , 橙汁 |
| 004004004 | 奶粉 , 莴苣 , 尿布 , 啤酒 |
| 005005005 | 奶粉 , 莴苣 , 尿布 , 橙汁 |
111 项集 {尿布}\{ 尿布 \}{尿布} , {啤酒}\{ 啤酒 \}{啤酒}
222 项集 {尿布,啤酒}\{ 尿布 , 啤酒 \}{尿布,啤酒}
222 项集 {尿布,啤酒}\{ 尿布 , 啤酒 \}{尿布,啤酒} 其支持度是 0.6\rm 0.60.6 , 等于最小支持度 minsup=0.6\rm minsup = 0.6minsup=0.6, 是 频繁项集
那么 222 项集 {尿布,啤酒}\{ 尿布 , 啤酒 \}{尿布,啤酒} 的子集是 111 项集 {尿布}\{ 尿布 \}{尿布} , {啤酒}\{ 啤酒 \}{啤酒} ,
根据上述性质 , 111 项集 {尿布}\{ 尿布 \}{尿布} , {啤酒}\{ 啤酒 \}{啤酒} 都是 频繁项集 ;
三、 项集与超集支持度性质
任意一个 项集 的 支持度 , 都 大于等于 其 超集 支持度 ;
超集 就是 包含 该集合的集合 ;
总结
以上是生活随笔为你收集整理的【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则性质 | 非频繁项集超集性质 | 频繁项集子集性质 | 项集与超集支持度性质 )的全部内容,希望文章能够帮你解决所遇到的问题。
- 上一篇: 【数据挖掘】关联规则挖掘 Apriori
- 下一篇: 【数据挖掘】关联规则挖掘 Apriori