课程一、大数据运维之Linux基础 本部分是基础课程,帮大家进入大数据领域打好Linux基础,以便更好地学习Hadoop,hbase,NoSQL,Spark,Storm,docker,openstack等众多课程。因为企…
分类:Hadoop
CDH5快速入门手册
CDH5快速入门手册 标签:CDH5 1. 体系架构 CM分为Server与Agent两部分及数据库(自带更改过的嵌入Postgresql), 它主要做三件事件: 1.管理监控集群主机; 2.统一管理配置; 3.管理维护…
黑猴子的家:Hadoop 日志聚集
Job运行完成以后,将日志信息上传到HDFS系统上 1、配置yarn-site.xml <!-- 开启日志聚集功能 --> <property> <name>yarn.log-aggr…
hadoop启动和关闭命令
start-all.sh 启动所有的Hadoop守护进程。包括NameNode、 Secondary NameNode、DataNode、JobTracker、 TaskTrack stop-all.sh 停止所有的Ha…
集群部署HDFS
翻译: https://www.cloudera.com/documentation/enterprise/latest/topics/cdh_ig_hdfs_cluster_deploy.html#topic_11_2…
elasticsearch-hadoop学习笔记(一)
elasticsearch-hadoop可以看作是一个connector,使得数据可以在hadoop和elasticsearch之间双向流动。从架构上看,elasticsearch-hadoop集成了两个分布式系统:ha…
hadoop CDH + kylin安装
一:实验环境 三台CentOS 6.7主机,IP地址 172.16.10.50 master 172.16.10.51 slave1 172.16.10.52 slave2 JDK版本:1.8.0 CDH版本:5.8.3…
大数据面试题整理 -- hadoop 部分(1)
一、 hadoop 离线部分 1. hadoop HA 集群都要启动哪些进程,他们的作用是什么 Namenode:(1) 维护文件系统的目录树,管理文件系统的 namespace、(2) 管理元数据信息、(3) 接收用户…
使用Hadoop Streaming运行Python版Wordcount
编写map函数 wordcount_mapper.py #!/usr/bin/env python # ----------------------------------------------------------…
Hadoop之Unable to load native-hadoop library问题解决
在安装好Hadoop后,每次输入命令都会出现下面警告: WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform…
hadoop-2.7.3源码编译
前置及环境准备 下载hadoop2.7.3源码: https://archive.apache.org/dist/hadoop/common/hadoop-2.7.3/hadoop-2.7.3.tar.gz 安装依赖库 …
Hadoop到底能做什么?怎么用hadoop?
hadoop是什么? (1)Hadoop是一个开源的框架,可编写和运行分布式应用处理大规模数据,是专为离线和大规模数据分析而设计的,并不适合那种对几个记录随机读写的在线事务处理模式。Hadoop=HDFS(文件系统,数据…