课程介绍
极客时间Spark性能调优实战。
课程模块设计
课程按照原理、性能、实战分为三大部分。
原理篇:主要讲解与性能调优息息相关的核心概念,包括RDD、DAG、调度系统、存储系统和内存管理。力求用最贴切的故事和类比、最少的篇幅,让你在最短的时间内掌握其核心原理,为后续的性能调优打下坚实的基础。
性能篇:虽然 Spark 的应用场景可以分为 5 大类,包括海量批处理、实时流计算、图计算、数据分析和机器学习。但它对 Spark SQL 的倾斜和倚重也是有目共睹,所以性能篇主要分两部分来讲。
一部分主要讲解性能调优的通用技巧,包括应用开发的基本原则、配置项的设置、Shuffle 的优化、资源利用率的提升。另一部分会专注于数据分析领域,借助 Spark 内置优化如 Tungsten、AQE 和典型场景如数据关联,总结 Spark SQL 中的调优方法和技巧。
实战篇:以 2011-2019 的《北京市汽油车摇号》数据为例,手把手教你打造一个分布式应用,带你从不同角度洞察汽油车摇号的趋势和走向,帮助你实践我们的方法论和调优技巧,不仅要学得快,也要学得好!
除此之外,课程更新期间,还会不定期地针对一些热点话题进行加餐。比如,和 Flink、Presto 相比,Spark 有哪些优势;再比如,Spark 的一些新特性,以及业界对于 Spark 的新探索。这也能帮助你更好地面对变化,把握先机。
资源目录
.
[ 13K] 01-性能调优的必要性:Spark本身就很快,为啥还需要我调优?.md
[ 12M] 01-性能调优的必要性:Spark本身就很快,为啥还需要我调优?.mp3
[1.4M] 01-性能调优的必要性:Spark本身就很快,为啥还需要我调优?.pdf
[ 13M] 02-性能调优的本质:调优的手段五花八门,该从哪里入手?.mp3
[2.0M] 02-性能调优的本质:调优的手段五花八门,该从哪里入手?.pdf
[ 14M] 03-RDD:为什么你必须要理解弹性分布式数据集?.mp3
[3.0M] 03-RDD:为什么你必须要理解弹性分布式数据集?.pdf
[ 15M] 04-DAG与流水线:到底啥叫“内存计算”?.mp3
[6.7M] 04-DAG与流水线:到底啥叫“内存计算”?.pdf
[ 23M] 05-调度系统:“数据不动代码动”到底是什么意思?.mp3
[8.5M] 05-调度系统:“数据不动代码动”到底是什么意思?.pdf
[ 18M] 06-存储系统:空间换时间,还是时间换空间?.mp3
[3.4M] 06-存储系统:空间换时间,还是时间换空间?.pdf
[ 18M] 07-内存管理基础:Spark如何高效利用有限的内存空间?.mp3
[7.4M] 07-内存管理基础:Spark如何高效利用有限的内存空间?.pdf
[ 22M] 08-应用开发三原则:如何拓展自己的开发边界?.mp3
[2.4M] 08-应用开发三原则:如何拓展自己的开发边界?.pdf
[ 22M] 09-调优一筹莫展,配置项速查手册让你事半功倍!(上).mp3
[3.6M] 09-调优一筹莫展,配置项速查手册让你事半功倍!(上).pdf
[ 18M] 10-调优一筹莫展,配置项速查手册让你事半功倍!(下).mp3
[4.9M] 10-调优一筹莫展,配置项速查手册让你事半功倍!(下).pdf
[ 19M] 11-为什么说Shuffle是一时无两的性能杀手?.mp3
[ 10M] 11-为什么说Shuffle是一时无两的性能杀手?.pdf
[ 14M] 12-广播变量(一):克制Shuffle,如何一招制胜!.mp3
[5.4M] 12-广播变量(一):克制Shuffle,如何一招制胜!.pdf
[ 15M] 13-广播变量(二):如何让SparkSQL选择BroadcastJoins?.mp3
[1.6M] 13-广播变量(二):如何让SparkSQL选择BroadcastJoins?.pdf
[ 20M] 14-CPU视角:如何高效地利用CPU?.mp3
[7.6M] 14-CPU视角:如何高效地利用CPU?.pdf
[ 14K] 15-内存视角(一):如何最大化内存的使用效率?.md
[ 17M] 15-内存视角(一):如何最大化内存的使用效率?.mp3
[1.5M] 15-内存视角(一):如何最大化内存的使用效率?.pdf
[ 21M] 16-内存视角(二):如何有效避免Cache滥用?.mp3
[4.6M] 16-内存视角(二):如何有效避免Cache滥用?.pdf
[ 16M] 17-内存视角(三):OOM都是谁的锅?怎么破?.mp3
[6.0M] 17-内存视角(三):OOM都是谁的锅?怎么破?.pdf
[ 15M] 18-磁盘视角:如果内存无限大,磁盘还有用武之地吗?.mp3
[4.1M] 18-磁盘视角:如果内存无限大,磁盘还有用武之地吗?.pdf
[ 14M] 19-网络视角:如何有效降低网络开销?.mp3
[1.9M] 19-网络视角:如何有效降低网络开销?.pdf
[ 14M] 20-RDD和DataFrame:既生瑜,何生亮?.mp3
[6.6M] 20-RDD和DataFrame:既生瑜,何生亮?.pdf
[ 17M] 21-Catalyst逻辑计划:你的SQL语句是怎么被优化的?(上).mp3
[5.9M] 21-Catalyst逻辑计划:你的SQL语句是怎么被优化的?(上).pdf
[ 16M] 22-Catalyst物理计划:你的SQL语句是怎么被优化的(下)?.mp3
[7.5M] 22-Catalyst物理计划:你的SQL语句是怎么被优化的(下)?.pdf
[ 20M] 23-钨丝计划:Tungsten给开发者带来了哪些福报?.mp3
[7.8M] 23-钨丝计划:Tungsten给开发者带来了哪些福报?.pdf
[ 17M] 24-Spark3.0(一):AQE的3个特性怎么才能用好?.mp3
[6.3M] 24-Spark3.0(一):AQE的3个特性怎么才能用好?.pdf
[ 13M] 25-Spark3.0(二):DPP特性该怎么用?.mp3
[4.1M] 25-Spark3.0(二):DPP特性该怎么用?.pdf
[ 18M] 26-JoinHints指南:不同场景下,如何选择Join策略?.mp3
[9.1M] 26-JoinHints指南:不同场景下,如何选择Join策略?.pdf
[ 19M] 27-大表Join小表:广播变量容不下小表怎么办?.mp3
[4.9M] 27-大表Join小表:广播变量容不下小表怎么办?.pdf
[ 14M] 28-大表Join大表(一):什么是“分而治之”的调优思路?.mp3
[5.2M] 28-大表Join大表(一):什么是“分而治之”的调优思路?.pdf
[ 16M] 29-大表Join大表(二):什么是负隅顽抗的调优思路?.mp3
[8.2M] 29-大表Join大表(二):什么是负隅顽抗的调优思路?.pdf
[ 18M] 30应用开发:北京市小客车(汽油车)摇号趋势分析.mp3
[5.2M] 30应用开发:北京市小客车(汽油车)摇号趋势分析.pdf
[ 25M] 31-性能调优:手把手带你提升应用的执行性能.mp3
[5.4M] 31-性能调优:手把手带你提升应用的执行性能.pdf
[1.3M] SparkUI(上)-深入解读Spark作业的“体检报告”.mp3
[6.2M] SparkUI(上)-深入解读Spark作业的“体检报告”.pdf
[1.1M] SparkUI(下):深入解读Spark作业的“体检报告”.mp3
[6.1M] SparkUI(下):深入解读Spark作业的“体检报告”.pdf
[ 10M] 开篇词-Spark性能调优,你该掌握这些“套路”.mp3
[8.2M] 开篇词-Spark性能调优,你该掌握这些“套路”.pdf
[625K] 期末考试-“Spark性能调优”100分试卷等你来挑战!.pdf
[ 11M] 结束语-在时间面前,做一个笃定学习的人.mp3
[2.2M] 结束语-在时间面前,做一个笃定学习的人.pdf
评论0