Spark宽依赖与窄依赖

发表于 2022-05-17 更新于 2023-10-17 分类于大数据， Spark 阅读次数： Changyan：

Spark的宽依赖与窄依赖是跟数据分区关联的概念。我们知道Spark会将数据集

Spark宽依赖与窄依赖

针对宽依赖的优化是讨论比较多的话题。这也引出了惰性评估的主题。惰性评估的意思就是等到绝对需要时才执行计算。惰性评估的好处是Spark可以优化整个从输入到输出端的数据流。一个很好的例子就是Dataframe的谓词下推。

其实，我们日常工作中会有很多惰性评估的场景，尤其是解决历史存量问题的时候。例如，我们经常会先收集某方面的存量问题，然后整体分析后提供完整的解决方案。这样更有助于从整体统筹考虑，从而提供更更高效、低成本的解决方案。