获取资料

JK-Spark性能调优实战

JK-Spark性能调优实战

1.课前必学

01 _ 性能调优的必要性:Spark本身就很快,为啥还需要我调优?

02 _ 性能调优的本质:调优的手段五花八门,该从哪里入手?

开篇词 _ Spark性能调优,你该掌握这些“套路”

2.原理篇

03 _ RDD:为什么你必须要理解弹性分布式数据集?

04 _ DAG与流水线:到底啥叫“内存计算”?

05 _ 调度系统:“数据不动代码动”到底是什么意思?

06 _ 存储系统:空间换时间,还是时间换空间?

07 _ 内存管理基础:Spark如何高效利用有限的内存空间?

3.通用性能调优篇

08 _ 应用开发三原则:如何拓展自己的开发边界?

09 _ 调优一筹莫展,配置项速查手册让你事半功倍!(上)

10 _ 调优一筹莫展,配置项速查手册让你事半功倍!(下)

11 _ 为什么说Shuffle是一时无两的性能杀手?

12 _ 广播变量(一):克制Shuffle,如何一招制胜!

13 _ 广播变量(二):如何让Spark SQL选择Broadcast Joins?

14 _ CPU视角:如何高效地利用CPU?

15 _ 内存视角(一):如何最大化内存的使用效率?

16 _ 内存视角(二):如何有效避免Cache滥用?

17 _ 内存视角(三):OOM都是谁的锅?怎么破?

18 _ 磁盘视角:如果内存无限大,磁盘还有用武之地吗?

19 _ 网络视角:如何有效降低网络开销?

4.Spark SQL 性能调优篇

20 _ RDD和DataFrame:既生瑜,何生亮?

21 _ Catalyst逻辑计划:你的SQL语句是怎么被优化的?(上)

22 _ Catalyst物理计划:你的SQL语句是怎么被优化的(下)?

23 _ 钨丝计划:Tungsten给开发者带来了哪些福报?

24 _ Spark 3.0(一):AQE的3个特性怎么才能用好?

25 _ Spark 3.0(二):DPP特性该怎么用?

26 _ Join Hints指南:不同场景下,如何选择Join策略?

27 _ 大表Join小表:广播变量容不下小表怎么办?

28 _ 大表Join大表(一):什么是“分而治之”的调优思路?

29 _ 大表Join大表(二):什么是负隅顽抗的调优思路?

30_ 应用开发:北京市小客车(汽油车)摇号趋势分析

31 _ 性能调优:手把手带你提升应用的执行性能

4.SparkSQL性能调优篇

5.特别放送

Spark UI(上)_ 深入解读Spark作业的“体检报告”

Spark UI(下):深入解读Spark作业的“体检报告”

6.结束语

评论0

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址