大数据方向学习指南

2023年5月21日 260次阅读来源: tonyemail_st

前置知识：Linux用户管理，Linux文件权限管理，文件打包与解压，SQL语句

Step1 熟悉工作室软件环境
Step2 VirtualBox使用&启动vimtutor
Step3 熟悉云平台的使用
Step4 初识Hadoop
Step5 Hadoop单节点安装（1）本地模式
Step6 Hadoop单节点安装（2）伪分布式模式
Step7 添加PATH变量，方便使用java与hadoop命令
Step8 伪分布式模式下运行mapreduce
Step9 run a MapReduce job on YARN in a pseudo-distributed mode
Step10 Archives Examples-(1)Creating an Archive
Step11 Archives Examples-(2)Looking Up Files
Step12 Hadoop Commands Guide
Step13 编辑java开发的mapreduce源文件并且在集群上运行
Step13.1 使用eclipse-java开发mapreduce程序sample
Step13.2 MapReduce实现去重-NullWritable的使用
Step14 完全分布式安装Hadoop
Step15 修改复制块数与上传文件到hdfs
Step16 mapreduce使用yarn进行资源调度
Step17 Hive安装（使用mysql存储元数据）
Step18 Hive安装（使用默认的derby存储元数据）
Step19 使用Hive进行mapreduce计算
Step20 一个更加复杂的实例
Step21 理解目录/user/hive/warehouse/与表的关系
Step22 一个关于hive的官网示例
Step23 查询选课信息的简单示例
Step24 网络日志的Hive简单查询
Step24.1 一个Hive练习（解答2017年大数据行业大赛一题）
Step24.5 zookeeper的安装
Step25 Hbase官网快速入门教程
Step26 Hbase安装
Step27 HBase学习目录
Step35 spark本地运行
Step36 spark集群安装
Step37 spark交互式开发wordcount
Step38 spark示例程序wordcount开发
Step51 sqoop的安装
Step52 使用sqoop将数据从mysql导入到hdfs
Step53 使用sqoop将数据从mysql导入到hive

【hadoop入门视频教程】理论考核内容：

考核方式：新建简书文章，提交重要步骤截图
考核时间：10.11周三下午3点到4点半

第一步使用Virtulbox搭建hadoop集群（1个master,3个slave1，slave2,slave3）

要求：
1.Centos7操作系统采用最小化安装
2.可以通过master节点，统一启动与关闭dfs
3.每个hdfs块文件备份2份
4.从节点的心跳检查时间间隔10秒
5.hadoop.tmp.dir配置为/var/tmphadoop/

第二步使用hadoop fs -put命令上传测试文件hello.txt到hdfs的根目录。用java判断该文件是否存在，如果存在，则删除该文件，如果不存在则上传该文件。

第三步启动Yarn集群，并且配置mapreduce使用yarn做为资源调度，执行wordcount样例程序。

【hadoop入门视频教程】理论考核内容：

待定……

2017.10行业大赛分工

    原文作者：tonyemail_st
    原文地址: https://www.jianshu.com/p/657b6ea0ee6c
    本文转自网络文章，转载此文章仅为分享知识，如有侵权，请联系博主进行删除。