课程介绍
SRE实践:服务可靠性案例课,从技术到业务,从个人意识到组织文化,全方位提升你对服务可靠性的理解和实践能力。
基础篇
基础篇会系统地介绍可靠性保证最常见的六项技能:监控、容量、变更、预案、备份和恢复、文化和机制,了解这些能力可以解决哪些问题。此外还要培养自身的可靠性意识,不仅仅停留在使用工具和技术解决问题的阶段,而是从意识层开始改变。
应用篇
在应用篇,我们将深入分析具体的案例并探讨监控、容量、变更等技能在实践中的应用。特别是互联网公司那些影响非常大的故障,我们将通过分析这些案例看到背后的问题。同时你会了解到一些复杂场景下的应对方案,比如机房故障应该如何应对等等。
智能运维篇
这部分我们会介绍 AI 和可靠性结合能产生哪些火花,以及业界的优秀案例。比如通过异常检测,解决传统监控中难以发现的复杂问题,提高对系统异常的识别速度和准确性;利用 AI 进行时序数据分析和回归预测,可以更准确地预估系统负载,从而实现资源的优化分配和弹性扩容等。在故障的时候如何做更加智能的决策,给出合理的建议。
资源目录
.
[ 16K] 01监控:如何从业务视角出发添加监控?.md
[ 14M] 01监控:如何从业务视角出发添加监控?.mp3
[5.3M] 01监控:如何从业务视角出发添加监控?.pdf
[ 13K] 02容量:从业务视角看容量到底是什么?.md
[ 11M] 02容量:从业务视角看容量到底是什么?.mp3
[2.6M] 02容量:从业务视角看容量到底是什么?.pdf
[ 12K] 03变更:为什么说变更是可靠性的第一杀手?.md
[ 12M] 03变更:为什么说变更是可靠性的第一杀手?.mp3
[4.8M] 03变更:为什么说变更是可靠性的第一杀手?.pdf
[ 12K] 04预案:预案的三板斧指的是什么?.md
[ 11M] 04预案:预案的三板斧指的是什么?.mp3
[5.4M] 04预案:预案的三板斧指的是什么?.pdf
[ 13K] 05备份和恢复:可靠性的最后一道防线.md
[ 11M] 05备份和恢复:可靠性的最后一道防线.mp3
[2.6M] 05备份和恢复:可靠性的最后一道防线.pdf
[ 11K] 06可靠性文化和规范:人是万物的尺度.md
[ 12M] 06可靠性文化和规范:人是万物的尺度.mp3
[2.5M] 06可靠性文化和规范:人是万物的尺度.pdf
[ 15K] 07监控场景:为什么所有故障都有监控的因素?.md
[ 13M] 07监控场景:为什么所有故障都有监控的因素?.mp3
[3.7M] 07监控场景:为什么所有故障都有监控的因素?.pdf
[ 14K] 08容量场景(一):12306为什么现在能扛住春节抢票了?.md
[ 13M] 08容量场景(一):12306为什么现在能扛住春节抢票了?.mp3
[2.9M] 08容量场景(一):12306为什么现在能扛住春节抢票了?.pdf
[ 10K] 09容量场景(二):一次让网盘雪崩的热点事件.md
[8.0M] 09容量场景(二):一次让网盘雪崩的热点事件.mp3
[3.7M] 09容量场景(二):一次让网盘雪崩的热点事件.pdf
[ 12K] 10容量场景(三):一条让新浪工程师们通宵加班的微博.md
[ 11M] 10容量场景(三):一条让新浪工程师们通宵加班的微博.mp3
[2.8M] 10容量场景(三):一条让新浪工程师们通宵加班的微博.pdf
[ 11K] 11变更场景(一):一条让Facebook蒸发百亿的指令.md
[9.4M] 11变更场景(一):一条让Facebook蒸发百亿的指令.mp3
[2.7M] 11变更场景(一):一条让Facebook蒸发百亿的指令.pdf
[ 10K] 12变更场景(二):一次简单升级竟然损失几千万.md
[9.4M] 12变更场景(二):一次简单升级竟然损失几千万.mp3
[3.0M] 12变更场景(二):一次简单升级竟然损失几千万.pdf
[8.5K] 13变更场景(三):连续绊倒两个云厂商的故障.md
[8.1M] 13变更场景(三):连续绊倒两个云厂商的故障.mp3
[3.0M] 13变更场景(三):连续绊倒两个云厂商的故障.pdf
[ 12K] 14预案场景(一):B站最为深刻的一次自我剖析.md
[ 11M] 14预案场景(一):B站最为深刻的一次自我剖析.mp3
[5.3M] 14预案场景(一):B站最为深刻的一次自我剖析.pdf
[ 12K] 15预案场景(二):一次机房故障为何让多位高管被辞退?.md
[ 10M] 15预案场景(二):一次机房故障为何让多位高管被辞退?.mp3
[2.3M] 15预案场景(二):一次机房故障为何让多位高管被辞退?.pdf
[ 11K] 16备份和恢复:一次误操作中断7小时.md
[ 11M] 16备份和恢复:一次误操作中断7小时.mp3
[2.4M] 16备份和恢复:一次误操作中断7小时.pdf
[ 13K] 17可靠性意识:可靠性Oncall十大原则.md
[ 12M] 17可靠性意识:可靠性Oncall十大原则.mp3
[1.6M] 17可靠性意识:可靠性Oncall十大原则.pdf
[ 11K] 18概述:AIOps涉及哪些领域和方向?.md
[ 10M] 18概述:AIOps涉及哪些领域和方向?.mp3
[2.2M] 18概述:AIOps涉及哪些领域和方向?.pdf
[ 13K] 19AIOps故障发现:我们如何看到肉眼看不到的故障?.md
[8.8M] 19AIOps故障发现:我们如何看到肉眼看不到的故障?.mp3
[3.0M] 19AIOps故障发现:我们如何看到肉眼看不到的故障?.pdf
[ 16K] 20AIOps问题定位:如何在报警风暴中找到暴风眼?.md
[9.0M] 20AIOps问题定位:如何在报警风暴中找到暴风眼?.mp3
[2.6M] 20AIOps问题定位:如何在报警风暴中找到暴风眼?.pdf
[ 15K] 21AIOps容量预测:如何准确地预估流量?.md
[8.9M] 21AIOps容量预测:如何准确地预估流量?.mp3
[3.6M] 21AIOps容量预测:如何准确地预估流量?.pdf
[ 14K] 22AIOps变更管理:如何进行更全面地检查与更精准地阻断?.md
[8.7M] 22AIOps变更管理:如何进行更全面地检查与更精准地阻断?.mp3
[3.3M] 22AIOps变更管理:如何进行更全面地检查与更精准地阻断?.pdf
[ 14K] 23AIOps智能决策:给故障处理安装一个大脑.md
[ 11M] 23AIOps智能决策:给故障处理安装一个大脑.mp3
[4.1M] 23AIOps智能决策:给故障处理安装一个大脑.pdf
[ 15K] 24AIOps数据可靠性:如何预测磁盘故障.md
[9.1M] 24AIOps数据可靠性:如何预测磁盘故障.mp3
[3.3M] 24AIOps数据可靠性:如何预测磁盘故障.pdf
[ 12K] 25可靠性基础科学:可靠性背后的运筹学和概率学.md
[9.3M] 25可靠性基础科学:可靠性背后的运筹学和概率学.mp3
[2.1M] 25可靠性基础科学:可靠性背后的运筹学和概率学.pdf
[8.4K] 导学如何构建坚不可摧的服务可靠性体系?.md
[7.9M] 导学如何构建坚不可摧的服务可靠性体系?.mp3
[5.1M] 导学如何构建坚不可摧的服务可靠性体系?.pdf
[8.1K] 开篇词互联网公司故障频发,我们应该如何保障服务持续可靠?.md
[7.0M] 开篇词互联网公司故障频发,我们应该如何保障服务持续可靠?.mp3
[2.9M] 开篇词互联网公司故障频发,我们应该如何保障服务持续可靠?.pdf
[9.4K] 微软蓝屏事件:如何应对变更带来的问题?.md
[6.6M] 微软蓝屏事件:如何应对变更带来的问题?.mp3
[1.3M] 微软蓝屏事件:如何应对变更带来的问题?.pdf
[8.6K] 结束语这里不是终点,而是一个起点.md
[5.6M] 结束语这里不是终点,而是一个起点.mp3
[1.9M] 结束语这里不是终点,而是一个起点.pdf
[ 462] 结课测试来赴一场满分之约.md
[507K] 结课测试来赴一场满分之约.pdf
[ 10K] 网易云音乐故障猜想:如何避免迁移带来的问题?.md
[ 12M] 网易云音乐故障猜想:如何避免迁移带来的问题?.mp3
[1.9M] 网易云音乐故障猜想:如何避免迁移带来的问题?.pdf
评论0