8年京东大数据架构师推荐的大数据开发学习路线

2023年1月31日 256次阅读来源: 正在简书上学习

一、我们先要了解大数据的工作方向

01.大数据工程师

02.数据分析师

03.大数据科学家

04.其他（数据挖掘本质算是机器学习，不过和数据相关，也可以理解为大数据的一个方向吧）

二、大数据工程师的技能要求

必须技能10条:

01.Java高级(虚拟机、并发)

02.Linux 基本操作

03.Hadoop（此处为侠义概念单指HDFS+MapReduce+Yarn ）

04.HBase（JavaAPI操作+Phoenix ）

05.Hive(Hql基本操作和原理理解）

06.Kafka

07.Storm

08.Scala需要

09.Python

10.Spark (Core+sparksql+Spark streaming ）

高阶技能6条:

1.机器学习算法以及mahout库加MLlib

2.R语言

3.Lambda 架构

4.Kappa架构

5.Kylin

6.Aluxio

三、大数据的学习技术点

Hadoop核心

(1) 分布式存储基石：HDFS

HDFS简介入门演示构成及工作原理解析：数据块，NameNode, DataNode、数据写入与读取过程、数据复制、HA方案、文件类型、 HDFS常用设置 Java API代码演示

(2) 分布式计算基础：MapReduce

MapReduce简介、编程模型、Java API 介绍、编程案例介绍、MapReduce调优

(3) Hadoop集群资源管家：YARN

YARN基本架构资源调度过程调度算法 YARN上的计算框架

对大数据以及人工智能概念都是模糊不清的，该按照什么线路去学习，学完往哪方面发展，想深入了解，想学习的同学欢迎加入大数据学习qq群：522189307，有大量干货（零基础以及进阶的经典实战）分享给大家，并且有清华大学毕业的资深大数据讲师给大家免费授课，给大家分享目前国内最完整的大数据高端实战实用学习流程体系。从java和linux入手，其后逐步的深入到HADOOP-hive-oozie-web-flume-python-hbase-kafka-scala-SPARK等相关知识一一分享！

离线计算

(1) 离线日志收集利器：Flume

Flume简介核心组件介绍 Flume实例：日志收集、适宜场景、常见问题

(2) 离线批处理必备工具：Hive

Hive在大数据平台里的定位、总体架构、使用场景之Access Log分析 Hive DDL&DML介绍视图函数（内置，窗口，自定义函数）表的分区、分桶和抽样优化

(3) 速度更快的Hive：Impala

Impala在大数据架构中的角色架构数据处理过程一般使用步骤：创建表，分区表，查询等常用查询演示：统计，连接等、Impala与Hive的比较常用配置与最佳使用建议（查错，调优等）

(4) 更快更强更好用的MR：Spark

Scala&Spark简介基础 Spark编程（计算模型RDD、算子Transformation和Actions的使用、使用Spark制作倒排索引）Spark SQL和DataFrame 实例：使用Spark SQL统计页面PV和UV

实时计算

(1) 流数据集成神器：Kafka

Kafka简介构成及工作原理解析 4组核心API 生态圈代码演示：生产并消费行为日志

(2) 实时计算引擎：Spark Streaming

Spark Streaming简介工作原理解剖编写Streaming程序的一般过程如何部署Streaming程序？如何监控Streaming程序？性能调优

(3) 海量数据高速存取数据库：HBase

HBase简介架构及基本组件 HBase Table设计 HBase基本操作访问HBase的几种方式

大数据ETL

(1) ETL神器：Sqoop，Kettle

数据同步ETL介绍 Kettle常用组件介绍、抽取Mysql数据到Hive实战 Sqoop介绍、抽取Hive数据到Mysql实战

(2) 任务调度双星：Oozie，Azkaban

ETL与计算任务的统一管理和调度简介 Crontab调度的方案自研调度系统的方案开源系统Oozie和Azkaban 方案总结与经验分享

大数据应用与数据挖掘

(1) 大数据全文检索引擎：Elasticsearch

全文检索基础知识，ES安装及初级介绍，ES深入理解，使用经验介绍

(2) 数据仓库搭建

为什么要构建大数据平台大数据平台的的经典架构深入剖析“五横一纵”的架构实践知名互联网公司大数据平台架构简介

(3) 数据可视化

什么是数据可视化，数据可视化常用工具与必备技能介，Tableau和ECharts实操讲解 ECharts介绍，知名互金公司可视化经验介绍

(4) 算法介绍

介绍数据挖掘，机器学习，深度学习的区别，R语言和python的介绍，逻辑回归算法的介绍与应用，以及主要的推荐算法介绍

    原文作者：正在简书上学习
    原文地址: https://www.jianshu.com/p/a736ec7b99da
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。