当前位置：首页 > 编程资源 > 编程问答 >内容正文

编程问答

Spark RDD中cache和persist的区别

发布时间：2024/1/17 编程问答 44 豆豆

生活随笔收集整理的这篇文章主要介绍了 Spark RDD中cache和persist的区别小编觉得挺不错的,现在分享给大家,帮大家做个参考.

转自：http://www.ithao123.cn/content-6053935.html

通过观察RDD.scala源代码即可知道cache和persist的区别：

def persist(newLevel: StorageLevel): this.type = {
　　if (storageLevel != StorageLevel.NONE && newLevel != storageLevel) {
　　　　throw new UnsupportedOperationException( "Cannot change storage level of an RDD after it was already assigned a level")
　　}
　　sc.persistRDD(this)

　　sc.cleaner.foreach(_.registerRDDForCleanup(this))
　　storageLevel = newLevel
　　this
}

/** Persist this RDD with the default storage level (`MEMORY_ONLY`). */
def persist(): this.type = persist(StorageLevel.MEMORY_ONLY)

/** Persist this RDD with the default storage level (`MEMORY_ONLY`). */
def cache(): this.type = persist()

可知：

1）RDD的cache()方法其实调用的就是persist方法，缓存策略均为MEMORY_ONLY；

2）可以通过persist方法手工设定StorageLevel来满足工程需要的存储级别；

3）cache或者persist并不是action；

附：cache和persist都可以用unpersist来取消

总结

以上是生活随笔为你收集整理的Spark RDD中cache和persist的区别的全部内容，希望文章能够帮你解决所遇到的问题。

如果觉得生活随笔网站内容还不错，欢迎将生活随笔推荐给好友。

上一篇： spark 中的RDD编程：基于Java
下一篇： Spark的RDD操作之Join大全