随着信息产业的快速发展,大数据的应用逐渐落地,行业对人才的需求逐年扩大。许多人想加入大数据开发的行列,但不知道如何开始。
的第一阶段是JAVASE+MYSQL+JDBC。主要研究Java语言的一些概念,如字符、过程控制、面向对象、过程线程、枚举反射等。,研究MySQL数据库的安装和卸载及相关操作,研究JDBC的实现原理和Linux的基础知识。这是大数据的初始阶段
的第二阶段是对分布式理论的简要介绍,主要解释CAP理论、数据分发模式、一致性、2PC和3PC以及大数据集成架构。所涉及的知识点包括一致性一致性、可用性、分区容差、数据量分布、2PC进程、3PC进程、哈希方法、一致性哈希等。
的第三阶段是数据存储和计算(离线场景)。主要介绍协调服务ZK(1T)、数据存储hdfs(2T)、数据存储alluxio(1T)、数据采集水槽、数据采集日志、数据同步Squaop(0.5T)、数据同步datax(0.5T)、数据同步mysql-binlog(1T)、计算模型MR和DAG(1T)、配置单元(5T)、Impala(1T)、任务调度Azkaban、任务调度气流等。
的第四部分是仓库建设,主要说明仓库的历史背景、线下仓库建设项目-5T汽车架构的技术分析、3.5t多维数据模型处理麒麟的部署和安装、线下仓库建设项目-升级我的汽车后添加麒麟进行多维分析等。
的第五阶段是分布式计算引擎本文主要阐述了计算引擎、scala语言、spark、数据存储hbase、redis、kudu,并通过一个p2p平台项目实现spark多数据源读写。
的第六阶段是数据存储和计算(实时场景),主要解释数据通道Kafka、实时数据仓库druid、流数据处理flink、SparkStreaming,并允许您通过解释大量流量来消化知识点。
的第七阶段是数据搜索,主要讲解弹性搜索,包括全文搜索技术、ES安装操作、索引、索引创建、添加、删除、修改、索引、映射、过滤等。
的第八阶段是数据治理,主要解释数据标准、数据分类、数据建模、图形存储和查询、元数据、血缘关系和数据质量、Hive Hook、Spark监听器等。
的第九阶段是商业智能系统,主要解释超集和Graphna技术,包括基本介绍、安装、数据源创建、表操作和数据探索与分析。
的第10节是数据挖掘,主要解释机器学习中的数学系统、Spark Mlib机器学习算法库、Python scikit-learn机器学习算法库以及与大数据项相结合的机器学习。