大数据面试问题

2023年1月17日 230次阅读来源: Albert陈凯

spark工作原理

spark运行原理

Spark Streaming

Storm的ack是干嘛的

kalfka干嘛的

job提交到yarn上的工作流程

10x+5y+z = n，x+y+z的最小值

ArryList、LinkedList、vector的区别

hashMap HashTable的区别

垃圾回收机制

JVM的工作原理

Hbase的垃圾回收工具

for循环LinkedList

遍历HashMap的并且把某一个值删除

线程进程

Java中Runnable和Thread的区别Callable

Callable与Future的介绍

sleep wait区别

hadoop源码使用了什么JAVA技术

hadoop的通讯接口RPC协议

java的数据类型

mapreduce中的Text类型 LongWriteable 能不能用String 或者用long类型代替

JAVA如何实现序列化

反序列化是什么？
序列化是将（内存中的）结构化的数据数据，序列化成2进制

mapreduce常用的接口

mapreduce的工作流程

MR优化方式

什么样的情况下不能用mapreduce

HDFS的架构

hdfs改那几个文件分别改什么内容内容代表什么意思（3次）
core是全局的 site是局部的

hdfs优化

mapreduce怎么实现join连接

yarn的ha搭建

zookeeper的工作原理和应用场景

如何解决mapreduce的数据倾斜

mapreduce怎么实现把移动数据到移动计算的

hive 增加数据有几种方式

怎么给hive的表里面增加一个字段

增加的字段里面数据占不占内存

给字段增加值怎么增加

1g的小文件，1g的一个文件，为什么小文件占的空间更大

hive建表，什么情况下见内部表

impala 依赖

怎么解决hive数据倾斜问题

hbase rowkey的设计原则
唯一简明有意义

hbase的应用场景

你们平时PV有多少，数据量有多少

Hive是重点

hadoop工程师

zookeeper在hbase中作用

ZK中存的两张最重要的表

shall 数组的分隔符是什么

linux的copy

权限

    原文作者：Albert陈凯
    原文地址: https://www.jianshu.com/p/65af5337601c
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。