获取资料

玩转热门框架 用企业级思维 开发通用够硬的大数据平台

玩转热门框架 用企业级思维 开发通用够硬的大数据平台

第1章 课程导学与学习指南

本章中将向大家介绍课程能学到什么、解决什么实际问题、项目成果展示,课程整体安排以及如何学习更高效。

1-1 导学[课程背景、项目速览]

1-2 怎么更好的使用慕课平台

1-3 你真的会问问题吗?

第2章 认识企业中的大数据平台

为什么要有大数据平台?大数据平台究竟是为了解决什么问题产生的?如何判断一个大数据平台的好坏?在设计一个数据平台时,需要注意哪些,有什么步骤。各大企业现有的解决方案有哪些,常见的技术栈有哪些,我们自己设计的这个通用的大数据平台是什么结构。…

2-1 课程简介与学习建议

2-2 什么是大数据平台

2-3 为什么要建设大数据平台[三个解决、两个提升]

2-4 大数据平台常用技术栈有哪些[知识体系梳理、我们要用哪些]

2-5 各大企业大数据平台对比[作业:画出我们的平台架构和这些对比一下]

第3章 大数据平台 —— 数据仓库之离线&实时

你真的理解数据仓库是什么吗?数据仓库如何进行分层,为什么要分层呢?分层一定好吗?带你理解数据仓库,逐步掌握离线数仓工具Hive。对比离线数仓和实时数仓,了解实时数仓常见架构。

3-1 数据仓库VS数据库

3-2 数据仓库分层建设

3-3 Hive是什么[上期思考揭秘:分层的弊端,如何解决]

3-4 Hive安装部署[课下任务:预习Hive和Mysql的区别,Hive都有哪些表?]

3-5 [实操手册]Hive安装部署

3-6 Hive基本使用(上)Hive数据类型/分区/基础语法

3-7 Hive基本使用(中)内部表/外部表/分区表/分桶表

3-8 Hive基本使用(下)内置函数/自定义函数/实现UDF

3-9 [作业解答]Hive自定义函数注册

3-10 Hive存储结构 ORCFile

3-11 [梳理]Hive知识梳理总结

3-12 Hive常见面试题

3-13 离线数仓VS实时数仓

3-14 图解Lambda架构数据流程

3-15 Kappa 架构 VS Lambda

3-16 主流大公司的实时数仓架构

第4章 大数据平台——数据仓库之权限管理

解决三大问题:数仓安全问题,对比常见权限认证框架,使用Ranger开发数仓权限模块;数据来源问题,对常用数据采集工具进行介绍,使用DataX进行数据采集;数仓管理问题,介绍数据治理的概念及ApacheAtlas

4-1 权限管理(上)Hadoop/Hive自带权限控制

4-2 权限管理(下)实操Hive的权限操作

4-3 Kerberos认证简介[对称/非对称加密、数字证书、图解Kerberos流程]

4-4 Apache Ranger简介[图解Ranger架构、Ranger管理HDFS、Hive、Yarn举例]

4-5 Apache Rangr安装

4-6 Ranger HDFS Plugin安装

4-7 Ranger Hive Plugin安装

4-8 [实操手册]Apache Ranger安装部署

4-9 Ranger Api Java开发之User管理 试看

4-10 Ranger Api Java开发之Policy管理

4-11 数据采集介绍[图解数据采集流程]

4-12 常用数据采集工具[图解Sqoop、Flume、DataX]

4-13 Datax数据采集实战

4-14 [作业解答]Datax完成数据的导入导出

4-15 数据治理简介[要解决的问题、元数据、数据血缘]

4-16 Apache Atlas数据治理[图解Atlas架构]

4-17 数据仓库常见面试题

第5章 大数据平台 —— 调度系统

解决离线批处理任务的定时执行问题,对主流调度框架Azkaban进行架构介绍、特性讲解和部署应用。通过Java程序调用Azkaban相关接口,实现创建任务、调度任务功能,实现API接口封装

5-1 我们需要一个调度系统[任务处理现状、调度系统通用功能]

5-2 Azkaban介绍[常用开源调度框架对比]

5-3 Azkaban架构与调度流程[图解核心交互流程]

5-4 Azkaban安装部署

5-5 提交Azkaban任务

5-6 [实操手册]Azkaban安装部署及基础使用

5-7 Azkaban用户代理

5-8 Java程序操作Azkaban Api (上)

5-9 Java程序操作Azkaban Api(下)

5-10 调度系统相关面试指导

第6章 大数据平台 —— 计算引擎

平台的计算引擎是基于Spark构建的,依托了Yarn进行资源调度。本章从Spark架构、核心介绍及部署开始,进行Spark部分开发。之后接入Spark SQL模块。最后介绍了Spark的一些高阶调优技巧。

6-1 Spark简介[Hadoop VS Spark、图解Spark生态]

6-2 Spark架构及执行流程[根据图解了解Spark名词]

6-3 RDD简介及特性[图解WordCount示例中RDD如何转换]

6-4 RDD依赖关系[图解Stage划分]

6-5 Spark三种部署模式实战

6-6 [实操手册]Spark三种部署模式及基本操作

6-7 Spark程序开发

6-8 SparkSQL简介[RDD VS DataFrame]

6-9 SparkSQL程序开发

6-10 Spark 自定义UDF开发

6-11 Spark程序开发原则与基础优化[常见调优策略、持久化级别]

6-12 Spark 数据倾斜调优

6-13 [实操手册]Zeppelin安装与使用

6-14 Spark面试题答疑

第7章 大数据平台建设 —— SQL查询引擎

介绍SQL On Hadoop 方案。对Presto架构和应用做了一些介绍,利用Presto作为底层的SQL查询引擎,实现快速查询和多数据源查询。涉及Presto的配置优化,自定义函数、EventListener、以及通用UDF的开发,最后完成Presto On Yarn部署

7-1 大数据查询引擎Presto简介[作业:了解其他的SQL on Hadoop方案]

7-2 Presto架构与执行流程

7-3 Presto安装部署

7-4 通过Jdbc操作Presto

7-5 Presto UDF开发(上)

7-6 Presto UDF开发(下)

7-7 Presto EventListener开发

7-8 [实操手册]Presto on Yarn

7-9 Presto配置优化

7-10 Presto章节小结

第8章 大数据平台建设 —— 监控预警

集群监控能提高资源利用率,有效管理整个集群,本章对常见集群的预警方案做了介绍和应用,最后通过Ganafa展示项目监控数据

8-1 监控系统介绍

8-2 常用开源监控项目对比[Zabbix VS OpenFalcon VS Prometheus]

8-3 OpenFalcon各个组件介绍

8-4 OpenFalcon单机版部署

8-5 [实操手册]OpenFalcon 安装部署

8-6 OpenFalcon基本使用

8-7 OpenFalcon邮件网关安装

8-8 实现OpenFalcon对Hadoop服务状态报警

8-9 自定义Plugin开发

8-10 Push数据脚本开发

8-11 [实操手册]Grafana安装并使用OpenFalcon数据源

8-12 Grafana监控大盘配置

8-13 监控系统 章节小结

第9章 大数据平台建设 —— 管理整合、任务定制

整合前面章节中开发的数仓管理功能,整合数仓权限、数据治理和数据采集,通过界面化配置实现数据采集任务定制。实现任务调度功能,实现shell命令、JAVA程序、Python程序、Spark程序的运行和管理

9-1 Naga数据平台介绍

9-2 Naga大数据平台功能介绍

9-3 Naga 开发工具及基本类介绍

9-4 集群概览模块实体类开发

9-5 集群概览模块核心功能开发

9-6 集群概览接口开发及测试

9-7 业务线Entity开发

9-8 Hadoop及Hive Client开发

9-9 业务线Controller开发

9-10 任务管理模块介绍

9-11 插件抽象及解析代码开发

9-12 插件接口及测试

9-13 任务流程实体类开发

9-14 创建流程及提交流程开发

9-15 [实操手册]生成azkaban job文件

9-16 插件参数及变量介绍

9-17 引用参数解析方法开发

9-18 插件SDK模块开发

9-19 Java插件开发示例

9-20 Spark插件开发示例

9-21 [实操手册]Naga Plugin Python SDK开发

第10章 系统集成及可视化

实现多引擎的数据查询及可视化模块,生成图表进行展示。将前面的数据仓库、调度系统、SQL引擎、计算引擎、预警监控系统、元数据管理系统等等,如何将他们集成到一起构建大数据平台

10-1 数据查询架构介绍

10-2 QueryObject开发

10-3 [实操手册]Java DataFrame设计

10-4 DataFrame Wrapper开发

10-5 数据查询缓存

10-6 数据查询接口开发

10-7 数据可视化模块介绍

10-8 多种图表setting抽象

10-9 图表数据查询类

10-10 可视化接口开发及测试

10-11 Naga平台用户模型介绍

10-12 用户登录认证功能

10-13 用户权限认证功能

10-14 审计日志功能

10-15 [梳理介绍] Naga大数据平台前端框架介绍

10-16 前端开发框架运行

10-17 前端开发及前后端联调实现

10-18 [实操手册]业务线管理前端开发

10-19 [实操手册]数据查询功能界面开发

10-20 [实操手册]可视化图表界面开发

10-21 [梳理总结]前端开发过程中常见问题

10-22 课程总结

评论0

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址