Spark RDD中cache和persist的区别
转自:http://www.ithao123.cn/content-6053935.html
通过观察RDD.scala源代码即可知道cache和persist的区别:
| def persist(newLevel: StorageLevel): this.type = { sc.cleaner.foreach(_.registerRDDForCleanup(this)) /** Persist this RDD with the default storage level (`MEMORY_ONLY`). */
/** Persist this RDD with the default storage level (`MEMORY_ONLY`). */ |
可知:
1)RDD的cache()方法其实调用的就是persist方法,缓存策略均为MEMORY_ONLY;
2)可以通过persist方法手工设定StorageLevel来满足工程需要的存储级别;
3)cache或者persist并不是action;
附:cache和persist都可以用unpersist来取消
总结
以上是生活随笔为你收集整理的Spark RDD中cache和persist的区别的全部内容,希望文章能够帮你解决所遇到的问题。
- 上一篇: spark 中的RDD编程:基于Java
- 下一篇: Spark的RDD操作之Join大全