大数据架构师——目录

2024年4月26日 192次阅读来源: binso18502020560

怎么成为一个架构师？如果只是职称上面的，那就错了。

什么样的能力，能称得上架构师呢？

1.大靠山：能解决问题，做最后的技术保障。

2.灯塔：避免走弯路，能判断技术选型的适应范围。

3.善分享：愿意帮助他人的心态，不怕被超越。

4.被信任：指定好方向之后，手下的技术人员能够全心执行。

5.敢拍板：识别风险，承担负责。

6.不怕新：对新的技术，要能快速上手；面对突发问题，能顶上解决。

以上是理论层面的。

具体的技术方向：

硬件：cpu，内存，磁盘，操作系统，网络

软件：框架太多，按维度划分，选取一些来学习。

1：网络相关 RPC

netty，zookeeper，dubbo，protobuf，thrift

2：计算引擎

第一代：mapreduce

第二代：支持 DAG（有向无环图）的框架： Tez 、 Oozie，主要还是批处理任务

第三代：Job 内部的 DAG（有向无环图）支持（不跨越 Job），以及强调的实时计算Spark

第四代：对流计算的支持，以及更一步的实时性：Flink

3：存储

hdfs：textfile orc parquet

alluxio：主要通过内存来提供快速访问，并且是分布式

Ignite：Apache Ignite 内存数组组织框架是一个高性能、集成和分布式的内存计算和事务平台，用于大规模的数据集处理，比传统的基于磁盘或闪存的技术具有更高的性能，同时他还为应用和不同的数据源之间提供高性能、分布式内存中数据组织管理的功能。

4：数据库

redis，hbase，tidb，kudu，rocksdb，MongoDB，snappyData，carbonData

5：消息队列

RabbitMQ、RocketMQ、ActiveMQ、Kafka、ZeroMQ、MetaMq

6：压缩

lzo，gzip，snappy，bzip2

这么多，都要一个个的搞明白吗？？？各个类别都有了解，有2到3个是精通的就可以。

目录如下：

【一】spark 的技术架构 …

1.1 RDD 深入浅出

1.2 内部调度机理

1.3 流式处理

【二】hbase 的使用与结构

2.1 使用

2.2 结构

【三】kafka 的使用与优化

3.1 使用

3.2 优化

3.3 常见问题

【四】parquet 列式存储

4.1 存储结构

4.2 优化比对

【五】cpu与磁盘IO的关系

5.1 硬件的相互作用

【六】网络问题

6.1 传输

6.2 协议

6.3 常见问题

【七】精细化下的资源管理

7.1 掌控资源

7.2 预见瓶颈

【八】信任的建立

8.1 从6次成功开始

【九】突破头顶的天花板

9.1 分享与写作

    原文作者：binso18502020560
    原文地址: https://zhuanlan.zhihu.com/p/42514931
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。