【收藏】spark中map与mapPartitions区别
生活随笔
收集整理的这篇文章主要介绍了
【收藏】spark中map与mapPartitions区别
小编觉得挺不错的,现在分享给大家,帮大家做个参考.
两个函数最终处理得到的结果是一样的
mapPartitions比较适合需要分批处理数据的情况,比如将数据插入某个表,每批数据只需要开启一次数据库连接,大大减少了连接开支,伪代码如下:
arrayRDD.mapPartitions(datas=>{dbConnect = getDbConnect() //获取数据库连接datas.foreach(data=>{dbConnect.insert(data) //循环插入数据})dbConnect.commit() //提交数据库事务dbConnect.close() //关闭数据库连接})https://www.cnblogs.com/wbh1000/p/9846527.html
总结
以上是生活随笔为你收集整理的【收藏】spark中map与mapPartitions区别的全部内容,希望文章能够帮你解决所遇到的问题。
- 上一篇: 【收藏】Spark之RDD的mapPar
- 下一篇: Scala模拟Spark分布式计算流程示