【大数据面试题】35 Spark 怎么做优化？

26 阅读 0 评论 0 点赞

一步一个脚印，一天一道大数据面试题

博主希望能够得到大家的点赞收，藏支持！非常感谢~
点赞，收藏是情分，不点是本分。祝你身体健康，事事顺心！

Spark 如何做优化一直是面试过程中常问的问题。那么这次也仅以此篇文章总结梳理，希望对大家有帮助。

Spark 一般遇到了报错，紧急处理时，第一时间能想到的处理方法。
不过这样的方法使用范围较为有限。

能在 Spark 计算任务中进行配置，修改而做的优化。

数据倾斜
shuffle 可以说是 spark 最容易报错的地方，而深层原因就是容易到时 shuffle 报错的主要原因。
1.1. 定位数据倾斜：
Spark UI 中看到个别executor 处理的数据量远大于其它 executor，并出现了报错。
1.2. 增大并行度：
可能是并行度太小，导致个别 executor 处理数据量过大，增大并行度能减小报错的可能。
就像 100份工作随机给 5 人做，调整到随机给 10 人做的区别。

// 增大 DataFrame 的分区数
dataFrame.repartition(100

本站资源均来自互联网，仅供研究学习，禁止违法使用和商用，产生法律纠纷本站概不负责！如果侵犯了您的权益请与我们联系！

点赞(0) 打赏

暂无评论