随着云时代的发展,大数据也吸引了越来越多的目光。云计算和大数据早已成为不可分割的一体,掌握了云计算和大数据也就掌握了大数据常见的实时以及离线开发框架,具备架构设计以及开发能力,能够胜任 hadoop开发工程师,spark开发工程师,flink开发工程师等岗位。
下面是各个阶段适应的岗位:
阶段一:
基础知识(linux操作基础、shell编程、hadoop集群环境准备、zookeeper集群、网络编程)、JVM优化(JVM运行参数、JVM内存模型、jmap命令的使用、jstack命令的使用、VisualVM工具的使用、JVM垃圾回收算法、JVM垃圾收集器、Tomcat8优化、JVM字节码、代码优化)。完成以上初级阶段的学习,大家就能够完成中小型企业常见的自动化脚本。
阶段二 :
hadoop环境搭建2.0(hadoop源生集群搭建、CDH版本集群搭建)、hdfs(hdfs入门、hdfs深入)、mapreduce(mapreduce入门、mapreduce深入学习、mapreduce高级)、yarn、hive(hive安装、hive基本操作、hive高级用法、hive调优)、辅助系统工具(flume、azkaban调度、sqoop0)、IMPALA、HUE、OOZIE。学到这个阶段大家基本能够胜任离线相关工作,包括ETL工程师、hadoop开发工程师、hadoop运维工程师、Hive工程师、
数据仓库工程师等岗位。
阶段三 :
kafka消息队列、storm编程(storm编程、strom实时看板案例、storm高级应用)。完成第三阶段的学习,大家能够胜任Storm实时计算相关工作,包括ETL工程师、大数据开发工程师、Storm流式计算工程师等岗位。
阶段四 :
项目开发(strom日志告警、strom路由器项目开发)。了解了strom项目开发,大家能够胜任流计算开发工作,流式计算工程师、大数据开发工程师等相关工作岗位。
阶段五 :
Scala编程(Scala基础语法、Scala中面向对象编程、Scala中的模式匹配、Scala中的actor介绍、Actor实战、Scala中的高阶函数、隐式转换和隐式参数、Akka编程实战)、Spark(Spark概述、Spark集群安装、Spark HA高可用部署、Spark程序、RDD概述 、创建RDD 、RDD常用的算子操作 、RDD的依赖关系、RDD的缓存机制 、DAG的生成 、spark检查点、Spark SQL概述 、DataFrame介绍以及与RDD对比 、DataFrame常用操作 、DataSet的介绍、以编程方式执行Spark SQL查询、Spark on Yarn介绍、sparkStreaming概述、Spark Streaming原理 、DStream相关操作、Dstream操作实战、sparkStreaming整合flume实战、sparkStreaming整合kafka实战)、Hbase(hbase简介、hbase部署、hbase基本操作、hbase的过滤器、hbase原理、hbase高阶)。完成第五阶段的学习,大家能够胜任Spark相关工作,包括ETL工程师、Spark工程师、Hbase工程师等等。
阶段六 :
用户画像(用户画像概述、用户画像建模、用户画像环境、用户画像开发、hive整合hbase、hbase集成phoenix、项目可视化)。完成大数据Spark项目实战能够胜任Spark相关工作,包括ETL工程师、Spark工程师、Hbase工程师、用户画像系统工程师、
数据分析师。
阶段七 :
Flink(Flink入门、Flink进阶、Flink电商项目)。完成Flink实时计算系统的学习,大家能够胜任Flink相关工作,包括ETL工程师、Flink工程师、大数据实时开发工程师等岗位。
阶段八 :
机器学习入门(机器学习概念、机器学习数学基础)、机器学习语言基础(Python语言、Python数据分析库实战、用户画像标签预测实战)、集成学习算法、构建人才流失模型、
数据挖掘项目、推荐系统、CTR点击率预估实战。完成最后的学习能够胜任机器学习、数据挖掘等相关工作,包括推荐
算法工程师、数据挖掘工程师、机器学习工程师,填补人工智能领域人才急剧增长产生的缺口。