零基础大数据就业班
超强教学阵营
无与伦比双师阵型
所有就业型的培训班,多易教育都配备超强双师阵营;
首先,是学校的名师所组成的教学阵营,负责整个课程体系全程的教学实施和管理;
然后,是由企业在职大数据高级工程师组成的就业导师阵营,提供企业最真实工作经验指导,以及无与伦比的一对一就业辅导助攻
领衔名师配置
根据课程模块划分,每个班配备5至6名专职名师
页面空间有限,只进行部分展示
涛哥
星哥
行哥
企业导师配置
为每个学员配备一对一的企业导师,全程助学和就业助攻
企业导师都是各名企在岗工程师,为保护隐私,不展示头像
唯堆砌内容却不懂取舍,则百害而无一利矣
课程结构战力爆表
随着企业对大数据开发岗的要求变化,以及技术的更新迭代及流行程度变化,课程设计也随之吐故纳新,迭代升级,始终与前沿技术、最新需求保持同步
阶段1:编程基础
为大数据学习而设计的基础阶段,主要包含java语言,mysql数据库,sql语法,linux操作等.
阶段2:离线技术
大数据离线批处理系统的核心技术生态,主要包含hadoop,hive,scala,spark等.
阶段3:实时技术
大数据实时流式计算系统的核心技术生态,主要包含kafka,canal,flink等.
这个阶段怎么说呢,任何软件开发领域都是从编程语言开始,初次接触难免生疏,一旦开窍,则一通百通
主要学习内容:
计算机基本操作 | 数组的认识与使用 | IO流工具体系 |
软件基本原理 | 面向对象编程概念 | 文件读写实战 |
Java语言特性 | Java的类与对象 | 序列化原理深入 |
Java跨平台原理 | 类的继承与多台 | 网络编程基础 |
Java语言应用领域 | 接口与抽象类 | 网络IO工具体系 |
Java数据类型 | 类的构造过程详解 | 进程与线程 |
Java变量使用 | 常用工具类的使用 | Java并发编程基础 |
逻辑分支语句 | 集合类的使用 | Java并发编程高级 |
循环控制语句 | 集合底层数据结构 |
本课程模块,学习时长约1个月.
mysql是一种数据库软件,基本上所有后端开发(javaee、大数据等)都离不开数据库的支撑,而sql语法,更是数据开发最重要的一门语言
主要学习内容:
数据库基本原理 | MySQL DML进阶 | MySQL底层数据结构 |
数据库常见种类 | MySQL DML常用函数 | MySQL执行计划 |
MySQL基础概念 | MySQL自定义函数 | JDBC基础概念 |
MySQL基础架构 | MySQL触发器 | JDBC编程规范 |
MySQL安装部署 | MySQL存储过程 | JDBC连接池 |
MySQL DDL语法 | MySQL索引机制 | JDBC连接池框架 |
MySQL DML基础 | MySQL索引原理 | JDBC案例实战 |
本课程模块,学习时长约1周.
maven是一个项目管理工具,可以大大节省项目开发时的依赖管理,项目编译打包,工程结构配置等编码以外的工作量
主要学习内容:
Maven基础概念 | 项目生命周期管理 | Maven父子工程管理 |
Maven基本原理 | 依赖管理详解 | Maven依赖冲突解决 |
Maven快速上手 | Maven常用插件 | Maven实操进阶 |
Maven工程结构 | Maven父子工程结构 |
本课程模块,学习时长为2天.
实际开发中,一个项目都是由一个团队来协作开发,而git就是一个协作开发和版本管理的工具,它简单易学,但必不可缺
主要学习内容:
项目协同开发概念 | Git架构原理 | Git分支管理 |
版本管理发展历史 | Git快速上手 | Git冲突管理 |
SVN快速上手 | Git核心操作详解 | Git权限管理 |
新一代版本管理Git介绍 | Git ignore配置 | Git密钥配置 |
本课程模块,学习时长约1天.
桌面电脑用windows,而服务器上的操作系统则最流行linux,它稳定坚固功能强大,绝大部分的企业后端系统(包括大数据系统),都是部属在linux服务器上
主要学习内容:
Linux操作系统概述 | 虚拟机软件介绍 | Linux系统安装 |
Linux文件系统 | Linux基本操作 | Linux用户管理 |
Linux权限管理 | Linux网络管理 | Linux服务配置 |
Linux进程管理 | Linux文本处理 | Linux远程连接 |
Shell编程基础概念 | Shell编程变量与数据 | Shell编程运算符 |
Shell编程逻辑控制 | Shell编程函数定义 | Shell编程高阶语法 |
本课程模块,学习时长约4天.
hadoop平台,绝对的大数据基石,其HDFS组件至今依旧是大数据平台的底层文件系统行业标准,其MapReduce框架的设计思想,则是spark等新一代引擎的设计源头
主要学习内容:
分布式系统概述 | HDFS元数据机制精讲 | MAPREDUCE高阶调优精讲 |
Hadoop套件介绍 | HDFS数据读写机制精讲 | MAPREDUCE高阶编程精讲 |
Hadoop核心概念基础 | HDFS高可用机制精讲 | YARN核心概念基础 |
Hadoop组件介绍 | HDFS高级运维技术精讲 | YARN资源配置精讲 |
Hadoop安装部署 | MAPREDUCE核心概念基础 | YARN调度策略精讲 |
Hadoop集群启动管理 | MAPREDUCE编程上手 | YARN原理架构深入 |
HDFS核心概念基础 | MAPREDUCE高阶API运用 | YARN核心源码解析 |
HDFS核心操作详解 | MAPREDUCE原理架构深入 | YARN核心机制精讲 |
HDFS常见故障剖析 | MAPREDUCE核心源码解析 | MAPREDUCE ON YARN精讲 |
HDFS原理架构深入 | MAPREDUCE SHUFFLE机制精讲 | YARN高阶调优精讲 |
HDFS核心源码解析 | MAPREDUCE Task工作机制精讲 | YARN高阶运维精讲 |
本课程模块,学习时长约8天.
数据处理,首先需要收集数据,flume是一个apache旗下的开源数据收集系统,常用于各类业务日志的采集汇聚
主要学习内容:
数据采集概念基础 | FLUME SOURCE详解 | FLUME sink processor |
FLUME概念基础 | FLUME Channel详解 | FLUME 自定义组件 |
FLUME组件介绍 | FLUME SINK详解 | FLUME 事务机制精讲 |
FLUME安装部署 | FLUME channel selector | FLUME 高阶调优精讲 |
FLUME入门案例 | FLUME 拦截器详解 | FLUME 高阶运维精讲 |
本课程模块,学习时长约3天.
数据处理,首先需要收集数据,sqoop或datax,都可用于从业务系统的数据库中抽取数据到大数据平台,是实际开发中必不可缺的工具
主要学习内容:
ETL概念基础 | SQOOP生成全量快照 | DATAX增量导入 |
业务库与数据仓库对比 | SQOOP空值处理 | DATAX生成全量快照 |
SQOOP概念基础 | SQOOP导出详解 | DATAX空值处理 |
SQOOP核心组件 | DATAX概念基础 | DATAX导出详解 |
SQOOP入门案例 | DATAX核心组件 | DATAX并行度机制详解 |
SQOOP高阶配置详解 | DATAX入门案例 | DATAX流控机制详解 |
SQOOP全量导入 | DATAX高阶配置详解 | |
SQOOP增量导入 | DATAX全量导入 |
本课程模块,学习时长约2天.
hive的横空出世,把大数据平台的使用难度瞬间降低,它可以让用户通过sql来操作大数据系统的数据,从简单的数据统计到大型的数据仓库,它都能胜任;也是课程的重中之重
主要学习内容:
数据仓库概念基础 | Hive分区机制 | Hive小文件问题详解 |
Hive概念基础 | Hive分桶机制 | Hive执行计划 |
Hive核心组件 | Hive输入格式组件 | Hive原理深入精讲 |
Hive原理基础 | Hive输出格式组件 | Hive高阶调优精讲 |
Hive安装部署 | Hive SerDe组件详解 | Hive索引详解 |
Hive基本操作 | Hive自定义UDF | Hive事务机制详解 |
Hive DDL详解 | Hive自定义UDAF | Hive整合Hbase |
Hive DML详解 | Hive自定义UDTF | Hive数据抽样精讲 |
Hive常用函数 | Hive数据倾斜详解 | Hive执行引擎配置 |
Hive窗口函数 | Hive基础调优精讲 | Hive综合案例实战 |
本课程模块,学习时长约8天.
hbase是一个基于HDFS的分布式nosql数据库,用于解决数据量庞大但查询逻辑较简单的场景,比如用于用户画像数据的存储和查询支撑
主要学习内容:
NoSql数据库概念基础 | HBASE客户端高阶编程 | HBASE BlockCache原理深入 |
HBASE概念基础 | HBASE协处理器详解 | HBASE数据索引原理深入 |
HBASE核心组件 | HBASE Region机制详解 | HBASE读数据机制源码解析 |
HBASE架构基础 | HBASE Region分裂深入 | HBASE高阶调优精讲 |
HBASE安装部署 | HBASE Region合并深入 | HBASE高阶运维精讲 |
HBASE基本操作 | HBASE Compact机制深入 | HBASE行事务机制详解 |
HBASE DDL命令详解 | HBASE 底层存储架构深入 | HBASE行键设计深入 |
HBASE DML命令详解 | HBASE Skip-list原理深入 | HBASE热点问题精讲 |
HBASE 运维命令详解 | HBASE LSM-tree原理深入 | HBASE内存优化精讲 |
HBASE客户端基础编程 | Hbase MemStore原理深入 | HBASE线上故障案例 |
本课程模块,学习时长约4天.
数据分析讲究实效,如果任何查询分析都需要借助mr、spark等计算引擎则时效低;为此涌现了一大批的即席查询系统(olap引擎),多易第一时间引入了dorisdb和clickhouse
主要学习内容:
计算机基本操作 | 数组的认识与使用 | IO流工具体系 |
软件基本原理 | 面向对象编程概念 | 文件读写实战 |
Java语言特性 | Java的类与对象 | 序列化原理深入 |
Java跨平台原理 | 类的继承与多台 | 网络编程基础 |
Java语言应用领域 | 接口与抽象类 | 网络IO工具体系 |
Java数据类型 | 类的构造过程详解 | 进程与线程 |
Java变量使用 | 常用工具类的使用 | Java并发编程基础 |
逻辑分支语句 | 集合类的使用 | Java并发编程高级 |
循环控制语句 | 集合底层数据结构 |
本课程模块,学习时长约6天.
scala是一门基于jvm的优秀的函数式编程语言,其在数据处理领域有先天优势,重量级数据处理平台spark就是基于scala开发,因此,学习scala就是为了spark奠定基础
主要学习内容:
Scala 基本概念 | Scala Product体系 | Scala 模式匹配 |
Scala 开发环境配置 | Scala 样例类 | Scala 泛型定义 |
Scala 数据类型 | Scala 高阶函数 | Scala 泛型界定 |
Scala 变量定义使用 | Scala 柯里化函数 | Scala 泛型协变 |
Scala 逻辑控制语法 | Scala 传名调用 | Scala 泛型逆变 |
Scala 函数详解 | Scala 集合体系 | Scala 文件读写 |
Scala 类与对象 | Scala 隐式转换 | Scala 并发编程 |
Scala 抽象类 | Scala Traverable体系 | |
Scala 特制Trait | Scala Iterable体系 |
本课程模块,学习时长约6天.
spark平台,超重磅的大数据计算框架,其优秀的架构设计,强大的编程模型,高效的内存计算,几乎已成了大数据计算引擎中的公认最佳选择,课程的重中之重
主要学习内容:
Spark 基础概念 | Spark Shuffle机制概要 | SparkSQL 编程模型 |
Spark 编程模型 | Spark Shuffle机制源码深入 | SparkSQL Dataset详解 |
Spark RDD属性介绍 | Spark 并行度机制概要 | SparkSQL 输入格式详解 |
Spark 开发环境 | Spark 并行度机制源码深入 | SparkSQL 输出格式详解 |
Spark 入门案例 | Spark 运行时架构 | SparkSQL Dataset与RDD转换 |
Spark RDD转换算子详解 | Spark 运行时角色精讲 | SparkSQL sql语法详解 |
Spark RDD行动算子详解 | Spark Standalone模式详解 | SparkSQL tableAPI详解 |
Spark 广播变量与闭包引用 | Spark Yarn-Client模式详解 | SparkSQL 抽样语法 |
Spark 累加器详解 | Spark Yarn-Cluster模式详解 | SparkSQL 数据倾斜调优 |
Spark 重分区算子 | Spark 内存管理机制 | SparkSQL 执行计划详解 |
Spark RDD原理深入 | Spark 内存配置进阶 | SparkSQL 执行计划深入 |
Spark DAG调度深入 | Spark 综合案例实战 | SparkSQL 执行原理源码解析 |
Spark Task调度核心概念 | SparkSQL 基础概念 | SparkSQL 综合实战案例 |
本课程模块,学习时长约10天.
kafka名字萌萌哒,但它在大数据系统中的作用可不容小觑,几乎所有流式处理系统都会用上kafka,它是一个分布式消息缓存系统,它解耦数据源和处理引擎,它帮助削峰填谷
主要学习内容:
消息队列概念基础 | Kafka序列化组件 | Kafka高可用机制深入 |
消息队列常见框架 | Kafka消费偏移量维护 | Kafka数据一致性机制深入 |
Kafka基础概念 | Kafka生产者编程 | Kafka Controller原理 |
Kafka架构基础 | Kafka底层存储结构解析 | Kafka事务机制深入 |
Kafka组件详解 | Kafka消费者组 | Kafka负载均衡进阶 |
Kafka安装部署 | Kafka消费者组原理 | Kafka吞吐量优化进阶 |
Kafka命令操作 | Kafka消费者原理深入 | Kafka线上故障调优 |
Kafka消费者编程 | Kafka生产者原理深入 | Kafka数据高效读写原理深入 |
本课程模块,学习时长约4天.
实时流式处理也经常要针对业务库中的数据,大数据处理系统实时获取业务库的数据的利器则是阿里开源的canal,它监听mysql的binlog,实时获取增量数据并写入kafka
主要学习内容:
canal基本概念 | canal实战配置 | canal线上调优 |
canal核心机制 | canal数据结构详解 | canal整合kafka |
canal安装部署 | canal高级配置 | canal案例实战 |
本课程模块,学习时长约1天.
实时流式计算中,经常需要一个存储系统提供快速查询和快速写入,一般数据库难以满足需求,而快如闪电的Redis正好适用
主要学习内容:
内存缓存组件概述 | Redis数据结构详解 | Redis底层存储机制 |
常见内存缓存组件 | Redis数据结构深入 | Redis数据TTL详解 |
Redis基础概念 | Redis高级数据结构 | Redis客户端编程 |
Redis架构原理 | Redis集群架构 | Redis运维进阶 |
Redis安装部署 | Redis集群模式详解 | Redis综合实战案例 |
Redis基础操作 | Redis集群模式部署 |
本课程模块,学习时长约3天.
storm之后的第二代实时流式计算重量级引擎,基于spark-core,以无限的微批次处理来模拟实现流式计算,吞吐量大但实时性不够,现已基本上被第三代引擎flink所取代,因此sparkstreaming在课程中大大削减内容,仅做了解用于对比即可
主要学习内容:
sparkstreaming基本概念 | sparkstreaming常用算子 | sparkstreaming整合redis |
sparkstreaming核心机制 | sparkstreaming原理深入 | sparkstreaming窗口计算详解 |
sparkstreaming编程模型 | sparkstreaming整合kafka | sparkstreaming常见调优手段 |
本课程模块,学习时长约1天.
实时流式处理中的超级重磅框架,它的横空出世瞬间引爆了实时流式计算平台的兴起,而且成为当下实时流式计算的唯一选择,它灵活高效,事件驱动,时间语义丰富,能实现端到端一致性,优点太多,课程的重中之重
主要学习内容:
Flink基础概念 | Flink时间语义 | Flink Checkpoint详解 |
Flink核心架构介绍 | Flink窗口计算编程 | Flink Checkpoint深入 |
Flink开发环境 | Flink窗口计算深入 | Flink Savepoint详解 |
Flink集群部署 | Flink WaterMark详解 | FlinkSQL基础概念 |
Flink编程入门 | Flink WaterMark原理深入 | FlinkSQL TableAPI详解 |
Flink编程模型详解 | Flink状态State管理编程 | FlinkSQL常用函数 |
Flink批处理API详解 | Flink状态State管理机制详解 | FlinkSQL自定义标量函数 |
Flink流处理API详解 | Flink底层高阶process API | FlinkSQL自定义聚合函数 |
Flink并行度详解 | Flink容错机制详解 | FlinkSQL自定义表生成函数 |
Flink并行度深入 | Flink状态一致性机制 | FLinkSQL自定义表聚合函数 |
本课程模块,学习时长约12天.