欢迎访问 生活随笔!

生活随笔

当前位置: 首页 > 编程资源 > 编程问答 >内容正文

编程问答

【数据挖掘】关联规则挖掘 Apriori 算法 ( Apriori 算法过程 | Apriori 算法示例 )

发布时间:2025/6/17 编程问答 54 豆豆
生活随笔 收集整理的这篇文章主要介绍了 【数据挖掘】关联规则挖掘 Apriori 算法 ( Apriori 算法过程 | Apriori 算法示例 ) 小编觉得挺不错的,现在分享给大家,帮大家做个参考.

文章目录

  • 一、 Apriori 算法过程
  • 二、 Apriori 算法示例



参考博客 :

  • 【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则简介 | 数据集 与 事物 Transaction 概念 | 项 Item 概念 | 项集 Item Set | 频繁项集 | 示例解析 )
  • 【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则 | 数据项支持度 | 关联规则支持度 )
  • 【数据挖掘】关联规则挖掘 Apriori 算法 ( 置信度 | 置信度示例 )
  • 【数据挖掘】关联规则挖掘 Apriori 算法 ( 频繁项集 | 非频繁项集 | 强关联规则 | 弱关联规则 | 发现关联规则 )
  • 【数据挖掘】关联规则挖掘 Apriori 算法 ( 关联规则性质 | 非频繁项集超集性质 | 频繁项集子集性质 | 项集与超集支持度性质 )




一、 Apriori 算法过程



原始数据集 D\rm DD ,

111 项集 C1\rm C_1C1 , 222 项集 C2\rm C_2C2 , ⋯\cdots , k\rm kk 项集 Ck\rm C_kCk , 这些项集都是候选项集 ,


根据 原始数据集 D\rm DD , 创造 111 项集 C1\rm C_1C1 , 然后对 C1\rm C_1C1 执行 数据集扫描函数 , 找到其中的 频繁 111 项集 L1\rm L_1L1 ,

根据 频繁 111 项集 L1\rm L_1L1 , 创造 222 项集 C2\rm C_2C2 , 然后对 C2\rm C_2C2 执行 数据集扫描函数 , 找到其中的 频繁 222 项集 L2\rm L_2L2 ,

⋮\vdots

根据 频繁 k−1\rm k-1k1 项集 Lk−1\rm L_{k-1}Lk1 , 创造 k\rm kk 项集 Ck\rm C_kCk , 然后对 Ck\rm C_kCk 执行 数据集扫描函数 , 找到其中的 频繁 k\rm kk 项集 Lk\rm L_kLk ,





二、 Apriori 算法示例




事物编号事物 ( 商品 )
001001001奶粉 , 莴苣
002002002莴苣 , 尿布 , 啤酒 , 甜菜
003003003奶粉 , 尿布 , 啤酒 , 橙汁
004004004奶粉 , 莴苣 , 尿布 , 啤酒
005005005奶粉 , 莴苣 , 尿布 , 橙汁

最小支持度阈值为 minsup=0.6\rm minsup= 0.6minsup=0.6


根据 原始数据集 D\rm DD , 创造 111 项集 C1\rm C_1C1 , 然后对 C1\rm C_1C1 执行 数据集扫描函数 , 找到其中的 频繁 111 项集 L1\rm L_1L1 ,

111 项集 {奶粉}\{ 奶粉 \}{} 支持度 0.80.80.8
111 项集 {莴苣}\{ 莴苣 \}{} 支持度 0.80.80.8
111 项集 {尿布}\{ 尿布 \}{尿} 支持度 0.80.80.8
111 项集 {啤酒}\{ 啤酒 \}{} 支持度 0.60.60.6
111 项集 {甜菜}\{ 甜菜 \}{} 支持度 0.20.20.2
111 项集 {诚挚}\{ 诚挚 \}{} 支持度 0.40.40.4

111 项集中只有 {奶粉}\{ 奶粉 \}{} , {莴苣}\{ 莴苣 \}{} , {尿布}\{ 尿布 \}{尿} , {啤酒}\{ 啤酒 \}{} 是频繁 111 项集 ;


根据 频繁 111 项集 L1\rm L_1L1 , 创造 222 项集 C2\rm C_2C2 , 然后对 C2\rm C_2C2 执行 数据集扫描函数 , 找到其中的 频繁 222 项集 L2\rm L_2L2 ,

222 项集 {奶粉,莴苣}\{ 奶粉 , 莴苣 \}{,} 支持度 0.60.60.6
222 项集 {莴苣,尿布}\{ 莴苣 , 尿布 \}{,尿} 支持度 0.60.60.6
222 项集 {莴苣,啤酒}\{ 莴苣 , 啤酒 \}{,} 支持度 0.40.40.4
222 项集 {尿布,啤酒}\{ 尿布 , 啤酒 \}{尿,} 支持度 0.80.80.8
222 项集 {奶粉,尿布}\{ 奶粉 , 尿布 \}{,尿} 支持度 0.60.60.6
222 项集 {奶粉,啤酒}\{ 奶粉 , 啤酒 \}{,} 支持度 0.40.40.4

222 项集中只有 {奶粉,尿布}\{ 奶粉 , 尿布 \}{,尿} , {尿布,啤酒}\{ 尿布 , 啤酒 \}{尿,} , {莴苣,尿布}\{ 莴苣 , 尿布 \}{,尿} , {奶粉,莴苣}\{ 奶粉 , 莴苣 \}{,} 是 频繁 222 项集 ;


根据 频繁 222 项集 L1\rm L_1L1 , 创造 333 项集 C3\rm C_3C3 , 然后对 C3\rm C_3C3 执行 数据集扫描函数 , 找到其中的 频繁 333 项集 L3\rm L_3L3 ,

333 项集 {奶粉,莴苣,尿布}\{ 奶粉 , 莴苣 , 尿布 \}{,,尿} 支持度 0.40.40.4
333 项集 {奶粉,莴苣,啤酒}\{ 奶粉 , 莴苣 , 啤酒 \}{,,} 支持度 0.20.20.2
333 项集 {莴苣,尿布,啤酒}\{ 莴苣 , 尿布 , 啤酒 \}{,尿,} 支持度 0.40.40.4
333 项集 {奶粉,尿布,啤酒}\{ 奶粉 , 尿布 , 啤酒 \}{,尿,} 支持度 0.40.40.4

333 项集中没有频繁项集 ;

总结

以上是生活随笔为你收集整理的【数据挖掘】关联规则挖掘 Apriori 算法 ( Apriori 算法过程 | Apriori 算法示例 )的全部内容,希望文章能够帮你解决所遇到的问题。

如果觉得生活随笔网站内容还不错,欢迎将生活随笔推荐给好友。